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译 者 序 


在 互联 网 行业 ，MySQL 数据 库 训 无 疑问 已 经 是 最 常用 的 数据 库 。LAMP (Linux 十 
Apache + MySQL + PHP) 甚至 已 经 成 为 专 有 名 词 ， 也 是 很 多 中 小 网 站 建站 的 首选 技术 
架构。 我 所 在 的 公司 淘宝 网 ， 在 2003 年 非典 肆虐 期 间 创立 时 ， 选 择 的 就 是 LAMP 架构 ， 
当时 MySQL 的 版 本 还 是 4.0。 但 是 到 了 2003 年 底 ， 由 于 业务 超 预 期 的 增长 ，MySQL 
4.0 (当时 用 的 还 是 MyISAM 引擎) 的 很 多 缺点 在 高 并 发 大 压力 下 暴露 了 出 来 ， 于 是 技 
术 上 开始 改 用 商业 的 Oracle 数据 库 。 随 后 几 年 Oracle 加 小 型 机 和 高 端 存 储 的 数据 库 架 构 
支撑 了 淘宝 网 业务 的 爆炸 式 增长 ， 数 据 库 也 从 最 初 的 两 三 个 库 增 长 到 十 几 个 库 ， 并 且 每 
个 库 的 硬件 已 经 逐步 升级 到 顶 配 ,“ 天 花 板 ”很 明显 地 摆 在 了 眼前 。 于 是 在 2008 年 ， 基 
于 PC 服务 器 的 MySQL 数据 库 再 次 成 为 DBA 团队 的 选择 ， 这 时 候 MySQL 的 稳定 版 本 
已 经 升级 到 5.0， 并 且 5.1 也 已 经 在 开发 中 ， 性 能 和 特性 相对 于 2003 年 的 时 候 已 经 有 了 
非常 大 的 提升 。 淘 宝 网 的 数据 库 架 构 也 逐渐 从 垂直 拆 分 走向 水 平 拆 分 ， 在 大 规模 水 平 集 
群 的 架构 设计 中 ， 开 源 的 MySQL 受到 的 关注 度 越 来 越 高 ， 并 且 一 年 多 来 的 实践 也 证 明 
了 MySQL (存储 引擎 主要 使 用 的 是 InnoDB) 在 高 压力 下 的 可 用 性 。 于 是 从 2009 年 开 
始 ， 后 来 颇 受 外 界 关 注 的 所 谓 “ 去 IOE” 开 始 实施 ， 经 过 三 年 多 的 架构 改造 ， 到 2012 
年 整个 淘宝 网 的 核心 交易 系统 已 经 全 部 运行 在 基于 PC 服务 器 的 MySQL 数据 库 集群 中 ， 
全 部 实例 数 超过 2000 个 。 今 年 的 “ 双 11” 大 促 中 ，MySQL 单 库 经 受 了 最 高 达 6.5 万 的 
QPS, 某 个 拥有 32 个 节点 的 核心 集群 的 总 QPS 则 稳定 在 86 万 以 上 , 并 且 在 整个 大 促 ( 包 
括 之 前 三 年 的 “ 双 11” 大 促 ) 期 间 ， 数 据 库 未 发 生 过 任何 影响 大 促 的 重大 故障 。 当 然 ， 
这 个 结果 ， 也 得 益 于 淘宝 网 整个 应 用 架构 的 设计 ， 以 及 这 几 年 来 革命 性 的 内 存 设 备 的 迅 
猛 发 展 。 


2008 年 ， 淘 宝 DBA 团队 准备 从 Oracle 转向 MySQL 的 时 候 ， 团 队 中 的 大 多 数 人 对 
MySQL 的 了 解 都 非常 之 少 。 当 时 国内 技术 圈 对 MySQL 的 讨论 也 不 多 见 ， 网 上 能 找到 
的 大 多 数 中 文 资料 基本 上 关注 的 还 是 如 何 安装 ， 如 何 配置 主 备 复制 等 。 而 MySQL 中 文 


类 的 书籍 ， 大 部 分 还 是 和 PHP 放 在 一 起 ， 作 为 PHP 开发 中 的 一 环 来 讲述 的 。 所 以 当 我 
们 发 现 mysqlperformanceblog.com 这 个 相当 专业 的 国外 博客 的 时 候 ， 无 不 欣喜 莫名 。 同 
时 也 知道 了 博客 的 作者 们 2008 年 出 版 的 High Performance MySOL 第 二 版 (中文 版 于 
201046 1 月 出 版 )， 这 本 书 被 很 多 MySQL DBA 们 奉 为 圭 泉 ， 书 的 三 位 主要 作者 Baron 
Schwartz, Peter Zaitsev 和 Vadim Tkachenko 也 在 MySQL DBA 圈 中 耳熟能详 ， 他 们 组 
HJ Percona 公司 和 Percona Server 分 支 版 本 以 及 XtraDB 存储 引擎 也 逐渐 为 国内 DBA 
所 熟知 。2011 年 12 月 ， 淘 宝 网 和 O'Reilly 在 北京 联合 举办 的 Velocity China 2011 技术 
KÈ E, RAPBHE] Percona 公司 的 华人 专家 季 海 东 ( 目 前 已 离职 ) 来 介绍 MySQL 5.5 
InnoDB/XtraDB 的 性 能 优化 和 诊断 方法 。 在 季 海 东 先 生 的 引荐 下 ， 我 们 也 和 Peter 通过 
Skype 电话 会 议 有 过 沟通 ， 介 绍 了 MySQL 在 淘宝 的 应 用 情况 ， 我 们 对 MySQL 一 些 特 性 
的 需求 , 以 及 对 MySQL 做 的 一 些 patch, 并 随后 保持 了 密切 的 邮件 联系 。 有 了 这 些 铺垫 ， 
我 们 对 于 在 生产 系统 中 采用 Percona Server 5.5 也 有 了 更 大 的 信心 ， 如 今 已 有 超过 1000 
个 Percona Server 5.5 的 实例 在 线 上 运行 。 所 以 今年 上 半年 电子 工业 出 版 社 的 张 春 雨 (tk 
少 ) 编辑 找到 我 来 翻译 本 书 的 第 三 版 的 时 候 ， 很 是 激动 ， 一 口 应 承 。 


考虑 到 这 么 经 典 的 书 应 该 尽快 地 和 读者 见面 ， 故 此 我 邀请 了 团队 中 的 MySQL 专家 周 振 
兴 (FER, : HH), Barth, BUS ( 花 名 : MA), XE ( 花 名 : HH) 一 起 来 翻译 。 
其 中 ， 我 负责 前 、 推 荐 序 和 第 1、2、3 章 ， 周 振兴 负责 第 5、6、7 章 ， 彭 立 勋 负责 第 4、 
8、9、14 章 ， 翟 卫 祥 负责 第 10、11、12、13 章 ， 刘 辉 负 责 第 15、16 章 和 附录 部 分 ， 最 
后 由 我 负责 统 稿 。 所 以 毫 无 疑问 ， 这 本 书 是 团队 合作 的 结晶 。 虽 然 我 们 满怀 激情 ， 但 由 
于 都 是 第 一 次 参与 翻译 技术 书籍 ， 确 实 对 困难 有 些 预 估 不 足 ， 加 上 下 半年 为 了 准备 “ 双 
11” 等 各 种 大 促 ， 需 要 在 DBA 团队 满 负 荷 的 工作 间隙 挤 出 个 人 时 间 ， 初 稿 出 来 后 ， 由 
于 每 个 人 翻译 风格 不 太一 致 ， 几 次 审 稿 修订 ， 也 让 本 书 的 编辑 李 云 静 和 和 白兰 吃 了 不 少 兰 
头 ， 在 此 对 大 家 表示 深 深 的 感谢 ， 是 大 家 不 懈 的 努力 ， 才 使 得 本 书 能 够 顺利 地 和 读者 见 
面 。 但 书 中 肯定 还 存在 不 少 问 题 ， 转 请 读者 不 音 指 出 ， 欢 迎 大 家 和 我 的 新 浪 微 博 htip:// 
weibo.com/NinGoo 进行 互动 。 


同时 还 要 感谢 本 书 第 二 版 的 译 者 们 ， 他 们 娴熟 的 语言 技巧 给 了 我 们 很 多 的 参考 。 也 要 感 
谢 帮助 审 稿 的 同事 们 ， 包 括 但 并 不 仅 限于 张 新 铭 ( 花 名 : 俊 达 )、 张 瑞 ( 花 名 : 张 瑞 )、 
吴 学 章 ( 花 名 : 维 西 ) 等 ， 彭 立 勋 甚至 还 发 动 了 他 女 朋 友 加 入 到 审 稿 工作 中 ， 在 此 一 并 
表示 感谢 。 当 然 ， 最 后 还 要 感谢 我 的 妻子 Lalla， 在 我 占用 了 大 量 周末 时 间 的 时 候 能 够 给 
予 支持 ， 并 承担 了 全 部 的 家 务 ， 让 我 以 译 书 为 借口 毫 无 心理 负担 地 偷懒 。 


宁海 元 GEA : 江枫 ) 
2013 年 3 月 于 余杭 
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很 多 年 前 我 就 是 这 本 书 的 “粉丝 ”了 ， 这 是 一 本 伟大 的 书 ， 第 三 版 尤其 如 此 。 这 些 世界 
级 的 专家 不 仅仅 分 享 他 们 的 专业 知识 ， 也 人 花 了 很 多 时 间 来 更 新 和 旅 加 新 的 章节 ， 且 都 是 
高 品质 的 内 容 。 本 书 有 大 量 关于 如 何 获得 MySQL 高 性 能 的 细节 信息 ， 并 且 关 注 的 是 提 
升 性 能 的 过 程 ， 而 不 仅仅 是 擅 述 事实 结果 和 琐碎 的 细 枝 末节 。 这 本 书 将 告诉 读者 如 何 将 
事情 做 得 更 好 ， 不 管 MySQL 在 不 同 版 本 中 的 行为 有 多 么 大 的 改变 。 


毫 无 疑问 , 本 书 的 作者 是 唯一 有 资格 来 写 这 么 一 本 书 的 人 , 他 们 经 验 丰 富 , 有 合理 的 方法 ， 
关注 效率 , 并 且 精 益 求 精 。 说 到 经 验 丰富 , 本 书 的 作者 已 经 在 MySQL 性 能 领域 工作 多 年 ， 
M MySQL 还 没有 什么 可 扩展 性 和 可 测量 性 的 时 代 ， 直 到 现在 这 些 方面 已 经 有 了 长 足 的 
进步 。 而 说 到 合理 的 方法 ， 他 们 简直 把 这 件 事情 当成 了 科学 ， 首 先 定义 需要 解决 的 问题 ， 
然后 通过 合理 的 猜测 和 精确 的 测量 来 解决 问题 。 


我 对 作者 在 效率 方面 的 关注 尤其 印象 深刻 。 作 为 顾问 ， 他 们 时 间 宝 贵 。 客 户 是 按照 他 们 
的 时 间 付 费 的 ， 所 以 都 希望 能 更 快 地 解决 问题 。 所 以 本 书 作者 定义 了 一 整套 的 流程 ， 开 
发 了 很 多 的 工具 ， 让 事情 变 得 正确 和 高 效 。 在 本 书 中 ， 作 者 详细 描述 了 这 些 流程 ， 并 且 
发 布 了 工具 的 源 代 码 。 


最 后 ， 本 书 作 者 在 工作 上 一 直 精 益 求 精 。 比 如 从 吞吐 量 到 响应 时 间 的 关注 ， 致 力 于 了 解 
MySQL 在 新 硬件 上 的 性 能 表现 ， 追 求 新 的 技能 如 排队 理论 对 性 能 的 影响 ， 等 等 。 


我 相信 本 书 预示 了 MySQL 的 光明 前 景 。MySQL 已 经 支持 高 要 求 的 工作 负载 ， 本 书 作 者 
也 在 努力 提升 MySQL 社区 内 对 性 能 的 认识 。 同 时 ， 他 们 还 直接 为 性 能 提升 做 出 了 贡献 ， 
包括 XtraDB 和 XtraBackup。 一 直 以 来 我 从 他 们 身上 学 到 了 不 少 东 西 ， 也 希望 读者 多 花 
点 时 间 读 读本 书 ， 一 定 会 同样 有 所 收益 。 


一 一 Mark Callaghan，Facebook 软件 工程 师 
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我 们 写 这 本 书 不 仅仅 是 为 了 满足 MySQL 应 用 开发 者 的 需求 ， 也 是 为 了 满足 MySQL & 
据 库 管理 员 的 需要 。 我 们 假定 读者 已 经 有 了 一 定 的 MySQL 基础 。 我 们 还 假定 读者 对 于 
系统 管理 、 网 络 和 类 Unix 的 操作 系统 都 有 一 些 了 解 。 


本 书 的 第 二 版 为 读者 提供 了 大 量 的 信息 ， 但 没有 一 本 书 是 可 以 涵盖 一 个 主题 的 所 有 方面 
的 。 在 第 二 版 和 第 三 版 之 间 的 这 段 时 间 里 ， 我 们 记录 了 数 以 千 计 有 趣 的 问题 ， 其 中 有 些 
是 我 们 解决 的 ， 也 有 一 些 是 我 们 观察 到 其 他 人 解决 的 。 当 我 们 在 规划 第 三 版 的 时 候 发 现 ， 
如 果 要 把 这 些 主题 完全 覆盖 ， 可 能 三 千 页 到 五 千 页 的 篇 幅 都 还 不 够 ， 这 样本 书 的 完成 就 
遥遥 无 期 了 。 在 反思 这 个 问题 后 ， 我 们 意识 到 第 二 版 强调 的 广泛 的 覆盖 度 事实 上 有 其 自 
身 的 限制 ， 从 某 种 意义 上 来 说 也 没有 引导 读者 如 何 按照 MySQL 的 方式 来 思考 问题 。 


所 以 第 三 版 和 第 二 版 的 关注 点 有 很 大 的 不 同 。 我 们 虽然 还 是 会 包含 很 多 的 信息 ， 并 且 会 
强调 同样 的 诸如 可 靠 性 和 正确 性 的 目标 ， 但 我 们 也 会 在 本 书 中 尝试 更 深入 的 讨论 : 我 们 
会 指出 MySQL 为 什么 会 这 样 做 ， 而 不 是 MySQL 做 了 什么 。 我 们 会 使 用 更 多 的 演示 和 
案例 学 习 来 将 上 述 原 则 落地 。 通 过 这 样 的 方式 ,我 们 希望 能 够 尝试 回 到 下 面 这 样 的 问题 . 
“给 出 MySQL 的 内 部 结构 和 操作 ， 对 于 实际 应 用 能 带 来 什么 帮助 ? 为 什么 能 有 这 样 的 帮 
Bh? 如何 让 MySQL 适合 (或 者 不 适合 ) 特定 的 需求 ?“ 


最 后 ， 我 们 希望 关于 MySQL 内 部 原理 的 知识 能 够 帮助 大 家 解决 本 书 没有 覆盖 到 的 一 些 
情况 。 我 们 更 希望 读者 能 培养 发 现 新 问题 的 洞察 力 ， 能 学 习 和 实践 合理 的 方式 来 设计 、 
维护 和 诊断 基于 MySQL 的 系统 。 
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本 书 涵盖 了 许多 复杂 的 主题 。 在 这 里 ， 我 们 将 解释 一 下 是 如 何 将 这 些 主题 有 序 地 组 织 
一 起 的 ， 以 便于 阅读 和 学 习 。 


慨 述 


第 1 章 是 非常 基础 的 一 a 在 更 深入 地 学 习 之 前 建议 先 熟悉 一 下 这 部 分 内 容 。 在 有 效 地 
使 用 MySQL ee 蕊 是 如 何 组 织 的 。 本 章 解 释 了 tl 的 架 ence 


帮助 。 fu HEL e Ht SER AE in Oracle 比较 熟悉 ， pie ec ei 
MySQL 的 入 门 知识 。 本 章 还 包括 了 一 点 MySQL 的 历史 背景 : MySQL 随 着 时 间 的 演进 、 
最 近 的 公司 所 有 权 更 替 ， 以 及 我 们 认为 比较 重要 的 内 容 。 


打造 坚实 的 基础 
本 书 前 几 章 的 内 容 在 今后 使 用 MySQL 的 过 程 中 可 能 会 被 不 断 地 引用 到 ， 它 们 是 非常 基 
础 的 内 容 。 


第 2 章 讨 论 了 基准 测试 的 基础 ， 例 如 服务 器 可 以 处 理 的 工作 负载 的 类 型 、 处 理 特定 任务 
的 速度 等 。 基 准 测试 是 一 项 至 关 重 要 的 技能 ， 可 用 于 评估 服务 器 在 不 同 负 载 下 的 表现 ， 
但 也 要 明白 在 什么 情况 下 基准 测试 不 能 发 挥 作用 。 


第 3 章 介 绍 了 我 们 常用 于 故障 诊断 和 服务 器 性 能 问题 分 析 的 一 种 面向 响应 时 间 的 方法 。 
该 方法 已 经 被 证 明 可 以 解决 我 们 曾 磁 到 过 的 一 些 极为 坏 手 的 问题 。 当 然 也 可 以 选择 修改 
我 们 所 使 用 的 方法 (实际 上 我 们 的 方法 也 是 从 Cary Millsap 的 方法 修改 而 来 的 ) ， 但 无 论 
如 何 ， 至 少 不 能 没有 方法 胡乱 猜测 。 


从 第 4 章 到 第 6 章 ， 连 续 介 绍 了 三 个 关于 良好 的 数据 库 逻 辑 设 计 和 物理 设计 基础 的 话 
第 4 章 涵盖 了 不 同 数据 类 型 的 细节 差别 以 及 表 设 计 的 原则 。 第 5 章 则 展开 讨论 了 索 

， 这 是 数据 库 的 物理 设计 。 对 于 索引 的 深入 理解 和 利用 是 高 效 使 用 MySQL 的 基础 ， 
noe 会 经 稼 需要 回头 翻 看 。 而 第 6 章 则 包含 了 分 析 MySQL 的 查询 是 如 何 执行 
的 ， 以 及 如 何 利 用 查询 优化 器 的 话题 。 该 章 也 包含 了 大 量 常见 类 型 查询 的 例子 ， 演 示 了 
MySQL 是 如 何 做 好 工作 的 ， 以 及 如 何 改写 查询 以 利用 MySQL 的 特性 。 


到 此 为 止 ， 已 经 覆盖 了 关于 数据 库 的 基础 内 容 : 表 、 索 引 、 数 据 和 查询 。 第 7 章 则 在 
MySQL 基础 知识 之 外 介绍 了 MySQL 的 高 级 特性 是 如 何 工作 的 。 这 章 的 内 容 包括 分 区 、 
存储 引擎 、 触 发 器 ， 以 及 字符 集 。MySQL 中 这 些 特 性 的 实现 可 能 不 同 于 其 他 数据 库 ， 
可 能 之 前 读者 并 不 清楚 这 些 不 同 ， 因 此 理解 它们 对 于 性 能 可 能 会 带 来 新 的 收益 。 


配置 应 用 程序 
接 下 来 的 两 章 讲述 的 是 如 何 让 MySQL、 应 用 程序 及 硬件 一 起 很 好 地 工作 。 第 8 章 介绍 
了 如 何 配置 MySQL， 以 便 更 好 地 利用 硬件 ， 达 到 更 好 的 可 靠 性 和 和 鲁 棒 性 。 第 9 章 解释 


=. 
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了 如 何 让 操作 系统 和 硬件 工作 得 更 好 。 另 外 也 深入 讨论 了 固态 硬盘 ， 为 高 可 扩展 性 应 用 
”发 挥 更 好 的 性 能 提供 了 硬件 配置 的 建议 。 


上 面 两 章 都 一 定 程度 地 涉及 了 MySQL 的 内 部 知识 。 这 将 会 是 一 个 反复 出 现 的 主题 ， 附 
录 中 也 会 有 相关 内 容 可 以 学 习 到 MySQL 的 内 部 是 如 何 实现 的 ， 理 解 了 这 些 知识 将 帮助 
读者 更 好 地 理解 某 些 现象 背后 的 原理 。 


作为 基础 设施 组 件 的 MySQL 
MySQL 不 是 存在 于 真空 中 的 ， 而 是 应 用 整体 的 一 个 环节 ， 因 此 需要 考虑 整个 应 用 架构 
的 鲁 棒 性 。 下 面 的 章节 将 告诉 我 们 该 如 何 做 到 这 一 点 。 


第 10 章 讨论 了 MySQL 的 杀手 级 特性 : 能 够 设置 多 个 服务 器 从 一 台 主 服务 器 同步 数据 。 
不 幸 的 是 ， 复 制 可 能 也 是 MySQL 给 很 多 用 户 带 来 困扰 的 一 个 特性 。 但 实际 上 不 应 该 发 - 
生 这 样 的 情况 ， 本 章 将 告诉 你 如 何 让 复制 运行 得 更 好 。 


第 11 章 讨论 了 什么 是 可 扩展 性 (这 和 性 能 不 是 一 回 事 )， 应 用 和 系统 为 什么 会 无 法 扩展 ， 
该 怎么 改善 扩展 性 。 如 果 能 够 正确 地 处 理 ，MySQL 的 可 扩展 性 是 足以 应 付 任 何 需 求 的 。 
第 12 章 讲述 的 是 和 可 扩展 性 相关 但 又 完全 不 同 的 主题 : 如 何 保障 MySQL 稳定 而 正确 地 
持续 运行 。 第 13 章 将 告诉 你 当 MySQL 在 云 计 算 环 境 中 运行 时 会 有 什么 不 同 的 事情 发 生 。 


第 14 章 解 释 了 什么 是 全 方位 的 优化 (full-stack optimization) ， 就 是 从 前 端 到 后 端的 整体 
优化 ， 从 用 户 体 验 开 始 直 到 数据 库 。 


即使 是 世界 上 设计 最 好 、 最 具 可 扩展 性 的 架构 ， 如 果 停 电 会 导致 彻底 崩溃 ， 无 法 抵御 恶 
意 攻击 ， 解 决 不 了 应 用 的 bug 和 程序 员 的 错误 ， 以 及 其 他 一 些 灾难 场景 ， 那 就 不 是 什么 
好 的 架构 。 第 15 章 讨论 了 MySQL 数据 库 各 种 备份 与 恢复 的 场景 。 这 些 策略 可 以 帮助 读 
者 减少 在 各 种 不 可 抗 的 硬件 失效 时 的 宕 机 时 间 ， 保 证 在 各 种 灾难 下 的 数据 最 终 可 恢复 。 


其 他 有 用 的 主题 
在 本 书 的 最 后 一 章 以 及 附录 中 ， 我 们 探讨 了 一 些 无 法 明确 地 放 到 前 面 章节 的 内 容 ， 以 及 
一 些 被 前 面 多 个 章节 引用 而 需要 特别 注意 的 主题 。 


第 16 章 探索 了 一 些 可 以 帮助 用 户 更 有 效 地 管理 和 监控 MySQL 服务 器 的 工具 ， 有 些 是 开 
源 的 ， 也 有 些 是 商业 的 。 | 


附录 A 介绍 了 近年 来 成 长 迅速 的 三 个 主要 的 非 MySQL 官方 版 本 ， 其 中 一 个 是 我 们 公 
司 在 维护 的 产品 。 知 道 还 有 其 他 什么 是 可 用 的 选择 是 有 价值 的 ; 很 多 MySQL 难以 解决 
的 棘手 问题 在 其 他 的 变种 版 本 中 说 不 定 就 不 是 问题 了。 这 三 个 版 本 中 的 两 个 (Percona 

前 言 | 
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Server 和 MariaDB) 是 MySQL 的 完全 可 替换 版 本 ， 所 以 尝试 使 用 的 成 本 相对 来 说 是 很 
低 的 。 当 然 ， 在 这 里 我 们 也 需要 补充 一 点 ，Oracle 提供 的 MySQL 官方 版 本 对 于 大 多 数 
用 户 来 说 都 能 服务 得 很 好 。 


附录 B 演示 了 如 何 检 查 MySQL 服务 器 。 知 道 如 何 从 服务 器 获取 状态 信息 是 非常 重要 的 ， 
而 了 解 这 些 状 态 代表 的 意义 则 更 加 重要 。 这 里 将 覆盖 SHOW INNODB STATUS 的 输出 结果 ， 
因此 这 里 包含 了 InnoDB 事务 存储 引擎 的 深入 信息 。 在 这 个 附录 中 讨论 了 很 多 InnoDB 
的 内 部 信息 。 


附录 C 演示 了 如 何 高 效 地 将 大 文件 从 一 个 地 方 复制 到 另外 一 个 地 方 。 如 果 要 管理 大 量 的 
数据 ， 这 种 操作 是 经 常 都 会 磁 到 的 。 附 录 D 演示 了 如 何 真正 地 使 用 并 理解 EXPLAIN 命 
A, MER E 演示 了 如 何 破除 不 同 查询 所 请 求 的 锁 互相 干扰 的 问题 。 最 后 ， 附 录 F 介绍 了 
Sphinx， 一 个 基于 MySQL 的 高 性 能 的 全 文 索引 系统 。 


软件 版 本 与 可 用 性 


MySQL 是 一 个 移动 又。 从 Jeremy 写作 本 书 第 一 版 到 现在 ，MySQL 已 经 发 布 了 好 几 个 
版 本 。 当 本 书 第 一 版 的 初稿 交 给 出 版 社 的 时 候 ，MySQL 4.1 和 5.0 还 只 是 alpha 版 本 ， 
而 如 今 MySQL 5.1 和 5.5 已 经 是 很 多 在 线 应 用 的 主力 版 本 。 在 我 们 写 完 这 第 三 版 的 时 候 ， 
MySQL 5.6 也 即将 发 布 。 


本 书 的 内 容 并 不 依赖 某 一 个 具体 的 版 本 。 相 反 ， 我 们 会 利用 上 自己 在 实际 环境 中 获得 的 更 
广泛 的 知识 。 本 书 的 核心 内 容 主 要 关注 MySQL 5.1 和 5.5 版 本 , 因为 我 们 认为 这 是 当前 - 
的 版 本 。 本 书 的 大 多 数 例子 都 假设 运行 在 MySQL 5.1 的 某 个 成 熟 版 本 上 ， 比 如 MySQL 
5.1.50 或 者 更 高 的 版 本 。 对 于 在 旧版 本 中 可 能 不 存在 ， 或 者 只 在 即将 到 来 的 5.6 版 本 中 
出 现 的 特性 或 者 功能 ， 我 们 也 会 特别 标注 出 来 。 然 而 ， 关 于 某 个 MySQL 版 本 的 特性 的 
权威 指南 还 是 要 看 官方 文档 。 在 阅读 本 书 时 ， 建 议 随 时 访问 在 线 官方 文档 的 相关 内 容 
(http://dev.mysql.com/doc/)。 


MySQL 的 另外 一 个 伟大 特点 是 能 够 运行 在 现今 流行 的 所 有 平台 : Mac OS X, Windows, 
GNU/Linux, Solaris, FreeBSD， 以 及 只 要 你 能 举 出 名 字 的 其 他 平台 。 然 而 ， 本 书 主要 世 
F GNU/Linux ®™'! 和 其 他 类 Unix 系统 。Windows 的 用 户 可 能 会 碰 到 一 些 困 难 。 比 如 说 文 
件 路 径 就 和 Windows 完全 不 一 样 。 我 们 也 会 引用 一 些 Unix 的 命令 行 工具 ， 我 们 假设 读 
者 能 够 知道 Windows 上 对 应 的 工具 是 什么 “?。 


注 1: 为 了 避免 产生 疑惑 ， 如 果 我 们 指 的 是 内 核 的 时 候 用 的 是 Linux， 如 果 指 的 是 支持 应 用 的 整个 操作 系 
统 环 境 的 时 候 用 的 是 GNU/Linux, 

注 2: 可 以 从 http:/unxutils.sourceforge.net 或 者 http://enuwin32.sourceforge.net 获得 Unix 工具 的 Windows #& 
BRA, 


了 中 
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在 Windows 上 搞 MySQL 的 另外 一 个 难点 是 Perl。MySQL 中 有 很 多 有 用 的 工具 是 用 
Perl 写 的 。 在 本 书 的 一 些 章节 中 ， 也 有 一 些 Perl 脚本 ， 在 此 基础 上 可 以 构建 更 加 复杂 
的 工具 。Percona Toolkit 是 不 可 多 得 的 MySQL 管理 工具 ， 也 是 用 Perl 写 的 。 然 而 ， 
Windows 平台 默认 是 没有 Perl 环境 的 。 为 了 使 用 这 些 工 具 ， 需 要 从 ActiveState 下 载 Perl 
的 Windows 版 本 ， 以 及 访问 MySQL 所 需要 的 一 些 额外 的 模块 (DBI 和 DBD: :MySQL) 。 


本 书 使 用 的 约定 
下 面 是 本 书 中 使 用 的 一 些 约定 。 


斜体 (Italic) 
新 的 名 字 、URL、 邮 件 地 址 、 用 户 名 、 主 机 名 、 文 件 名 、 文 件 扩 展 名 、 路 径 名 、 目 录 ， 
以 及 Unix 命令 和 工具 都 使 用 斜体 表示 。 


等 帘 字 体 (Constant width) 
包括 代码 元 素 、 配 置 选 项 、 数 据 库 和 表 名 、 变 量 和 值 、 函 数 、 模 块 、 文 件 内 容 、 命 
令 输 出 等 ， 使 用 的 是 等 宽 字体 。 - 


| 加 粗 的 等 宽 字 体 (Constant width bold) 
命令 或 者 其 他 需要 用 户 输入 的 文本 ， 命 令 输 出 中 需要 强调 的 某 些 内 容 ， 会 使 用 加 粗 
的 等 宽 字 体 。 

斜体 的 等 宽 字 体 (Constant width italic) 
需要 用 户 蔡 换 的 文本 以 斜体 的 等 宽 字 体 表 示 。 


ad ah ` pam 一 一 — AAD > 
res |] 这 个 图 标 表示 提示 、 建 议 ， 或 者 一 般 的 记录 。 
ae | 
ad 4: 
4) 


| 这 个 图 标 表示 一 个 警告 或 者 提醒 。 


使 用 示例 代码 


本 书 的 目标 是 为 了 帮助 读者 更 好 地 工作 。 一 般 来 说 ， 你 可 以 在 程序 或 者 文档 中 使 用 本 书 
中 的 代码 。 只 要 不 是 大 规模 地 复制 重要 的 代码 ， 使 用 的 时 候 不 需要 联系 我 们 。 例 如 ， 你 
编写 的 程序 中 如 果 只 是 使 用 了 本 书 部 分 的 代码 片段 则 无 须 取得 授权 ， 而 出 售 或 者 分 发 
O'Reilly 书籍 示例 代码 的 CD-ROM 盘 片 则 需要 经 过 授权 。 引 用 本 书 的 代码 回答 问题 也 无 
须 取得 授权 ， 而 大 量 引用 本 书 的 示例 代码 到 产品 文档 中 则 需要 获取 授权 。 


示例 代码 维护 在 http://www.highperfmysql.com 站 点 中 ， 会 及 时 保持 更 新 。 但 我 们 无 法 确 
保 代码 会 跟随 每 一 个 MySQL 的 小 版 本 进行 更 新 和 测试 。 


我 们 欢迎 大 家 在 使 用 了 本 书 代码 后 进行 反馈 ， 但 这 不 是 一 个 强制 要 求 。 反 馈 时 请 提供 
标题 、 作 者 、 出 版 公司 和 ISBN。 例 如 : “High Performance MySQL, Third Edition, by 
Baron Schwartz et al. (O’Reilly). Copyright 2012 Baron Schwartz, Peter Zaitsev, and Vadim 
Tkachenko, 978-1-449-31428-6” , 


如 果 你 使 用 了 本 书 的 代码 ， 但 又 不 在 上 面 描述 的 一 些 无 须 授权 的 范围 之 内 ， 不 确定 是 否 
需要 获取 授权 时 ， 请 联系 permissions@oreilly.com. 


Safari 在 线 书 店 


Safari” Safari 在 线 书 店 (www.safaribooksonline.com) 是 一 家 提供 定制 服务 的 数 
nenn ， 字 图 书馆 ， 提 供 技 术 和 商务 领域 内 顶级 作家 的 高 质量 内 容 的 书籍 和 音像 制 
品 。 很 多 技术 专家 、 软 件 开发 者 、Web 设计 师 、 商 务 人 士 和 创新 专家 都 将 

Safari 在 线 书 店 作为 他 们 研究 、 解决 问题 、 学习 和 认证 练习 的 首选 资料 来 源 。 


Safari 在 线 书 店 为 组 织 、 政 府 机 构 和 个 人 提供 了 一 系列 的 产品 组 合 和 定价 计划 。 订 阅 者 
可 以 访问 数 以 千 计 的 图 书 、 培 训 视频 和 手稿 ， 这 些 存在 于 一 个 可 搜索 的 数据 库 中 ， 涵 盖 
的 出 版 公司 有 O’Reilly Media, Prentice Hall Professional, Addison-Wesley Professional, 
Microsoft Press, Sams, Que, Peachpit Press, Focal Press, Cisco Press, John Wiley & Sons, 
Syngress, Morgan Kaufmann, IBM Redbooks, Packt, Adobe Press, FT Press, Apress, 
Manning, New Riders, McGraw-Hill, Jones & Bartlett, Course Technology, =, 40a T 
解 更 多 关于 Safari 在 线 书店 的 情况 ， 请 访问 在 线 网 站 。 


如 何 联系 我 们 
若 有 关于 本 书 的 任何 评论 或 者 问题 ， 请 和 出 版 公司 联系 。 


美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 8 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C BE 807 (100035) 
奥 菜 利 技术 咨询 (北京) 有限 公司 


mi 


本 书 有 一 个 配套 的 网 页 ， 上 面 列 出 了 勘误 表 、 示 例 代 码 及 其 他 相关 信息 。 下 面 是 此 网 页 
的 地 址 : 


http://shop.oreilly.com/product/0636920022343.do 
如 果 有 关于 本 书 的 评论 和 技术 问题 ， 也 可 以 通过 邮件 进行 沟通 : 
bookquestions@oreilly.com 


如 采 想 了 解 更 多 关于 我 们 出 版 公司 的 书籍 、 会 议 、 资 源 中心 和 O’Reilly 网 络 的 信息 ， 请 
访问 网 站 : 


http://www.oreilly.com 
我 们 的 Facebook : http://facebook.com/oreilly 
我 们 的 Twitter : http://twitter.com/oreillymedia 
我 们 的 YouTube : http://www.youtube.com/oreillymedia 


当然 ， 读 者 也 可 以 直接 和 作者 取得 联系 ， 可 以 访问 作者 的 公司 网 站 http://www.percona. 
com。 我 们 将 乐于 收 到 大 家 的 反馈 。 


本 书 第 三 版 的 致谢 

感谢 以 下 人 员 给 予 的 各 种 帮助 : Brian Aker, Johan Andersson, Espen Braekken, Mark 
Callaghan, James Day, Maciej Dobrzanski, Ewen Fortune, Dave Hildebrandt, Fernando 
Ipar, Haidong Ji, Giuseppe Maxia, Aurimas Mikalauskas, Istvan Podor, Yves Trudeau, Matt 
Yonkovit, Alex Yurchenko, iff Percona 公司 的 所 有 员工 ， 多 年 来 为 本 书 提供 了 无 数 的 
支持 。 感 谢 很 多 著名 博 主 “ ”和 技术 大 会 的 演讲 者 ， 他 们 为 本 书 的 很 多 思想 提供 了 大 量 
的 素材 ， 尤 其 是 Yoshinori Matsunobu。 另 外 也 要 感谢 本 书 前 面 两 版 的 作者 : Jeremy D. 
Zawodny、Derek J. Balling 和 Arjen Lentz。 感 谢 Andy Oram, Rachel Head, 以 及 O’Reilly 
的 整个 编辑 团队 ， 你 们 为 本 书 的 出 版 和 发 行 做 了 讲 有 成 效 的 工作 。 非 常 感谢 Oracle 的 
才华 横 淤 且 专 注 的 MySQL 团队 ， 以 及 所 有 之 前 的 MySQL 开发 者 ,不管 你 现在 是 在 
SkySQL 还 是 在 Monty 团队 。 


Baron 也 要 感谢 他 的 妻子 Lynn、 他 的 母亲 Connie， 以 及 他 的 岳父 母 Jane 和 Roger, RIN 
他 们 一 如 既往 地 支持 他 的 工作 ， 尤 其 是 不 断 地 鼓励 他 ， 并 且 承 担 了 所 有 的 家 务 和 照顾 整 
个 家 庭 的 重任 。 也 要 感谢 Peter 和 Vadim， 你 们 是 如 此 优秀 的 老师 和 同事 。Baron 将 此 版 


注 3: £& http-//planet.mysql.com 网 站 上 可 以 找到 很 多 优秀 的 技术 博客 。 


本 献 给 Alan Rimm-Kaufman， 以 纪念 他 给 予 的 伟大 的 爱 和 鼓励 ， 这 些 都 将 永志 不 忘 。 


本 书 第 二 版 的 致谢 

Sphinx 的 开发 者 Andrew Aksyonoff 编写 了 附录 F。 我 们 非常 感谢 他 首次 对 此 进行 深入 的 
讨论 。 

在 编写 本 书 的 时 候 ， 我 们 得 到 了 很 多 人 的 无 私 帮助 。 在 此 无 法 一 一 列举 一 一 我 们 真 的 非 
常 感谢 MySQL 社区 和 MySQL AB 公司 的 每 一 个 人 。 下 面 是 对 本 书 做 出 了 直接 贡献 的 人 ， 
如 有 遗漏 ， 还 请 见谅 。 他 们 是 : Tobias Asplund, Igor Babaev, Pascal Borghino, Roland 
Bouman, Ronald Bradford, Mark Callaghan, Jeremy Cole, Britt Crawford 和 他 的 HiveDB 
Iii, Vasil Dimov, Harrison Fisk, Florian Haas, Dmitri Joukovski 和 他 的 Zmanda 项 目 
(同时 感谢 Dmitri 为 解释 LVM 快照 提供 的 配 图 ) Alan Kasindorf, Sheeri Kritzer Cabral, 
Marko Makela, Giuseppe Maxia, Paul McCullagh, B. Keith Murphy, Dhiren Patel, Sergey 
Petrunia, Alexander Rubin, Paul Tuckfield, Heikki Tuuri, 以 及 Michael “Monty” Widenius, 


在 这 里 还 要 特别 感谢 O’ Reilly 的 编辑 Andy Oram 和 助理 编辑 Isabel Kunkle, LAR HARA 
Rachel Wheeler， 同 时 也 要 感谢 O’ Reilly 团队 的 其 他 所 有 成 员 。 


来 自 Baron 

我 要 感谢 我 的 妻子 Lynn Rainville 和 小 狗 Carbon, 如 果 你 也 曾 写 过 一 本 书 ， 我 相信 你 
就 能 体会 到 我 是 如 何 地 感谢 他 们 。 我 也 非常 感谢 Alan Rimm-Kaufman 和 我 在 Rimm- 
Kaufman 集团 的 同事 ， 在 写 书 的 过 程 中 ， 他 们 给 了 我 支持 和 鼓励 。 谢 谢 Peter, Vadim 和 
Arjen, 是 你 们 给 了 我 梦想 成 真 的 机 会 。 最 后 , 我 要 感谢 Jeremy 和 Derek 为 我 们 开 了 个 好 头 。 


来 目 Peter 

RME MySQL 性 能 和 可 扩展 性 方面 的 演讲 、 培 训 和 咨询 工作 已 经 很 多 年 了 ， 我 一 直 想 
把 它们 扩展 到 更 多 的 受众 。 因 此 ， 当 Andy Oram 加 入 到 本 书 的 编写 当中 时 ， 我 感到 非常 
兴奋 。 此 前 我 没有 写 过 书 ， 所 以 我 对 所 需要 的 时 间 和 精力 都 毫 无 把 握 。 一 开始 我 们 谈 到 
只 对 第 一 版 做 一 些 更 新 ， 以 跟 上 MySQL 最 新 的 版 本 升级 ， 但 我 们 想 把 更 多 新 素材 加 入 
到 书 中 ， 结 果 几 乎 相当 于 重 写 了 整 本 书 。 


这 本 书 是 真正 的 团队 合作 的 结晶 。 因 为 我 忙于 Percona 公司 的 事情 一 一 这 是 我 和 Vadim 
的 咨询 公司 ， 而 且 英 语 并 非 我 的 第 一 语言 ， 所 以 我 们 有 着 不 同 的 角色 分 工 。 我 负责 提供 
大 纲 和 技术 性 内 容 , 评审 所 有 的 材料 ， 在 写作 的 时 候 再 进行 修订 和 扩展 。 当 Arjen (MySQL 
文档 团队 的 前 负责 人 ) 加 入 之 后 ， 我 们 就 开始 勾画 出 整个 提纲 。 在 Baron 加 入 后 ， 一切 
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才 开 始 真正 行动 起 来 ， 他 能 够 以 不 可 思议 的 速度 编写 出 高 质量 的 内 容 。Vadim 则 在 深入 
检查 MySQL 源 代码 和 提供 基准 测试 及 其 他 研究 来 巩固 我 们 的 论点 时 提供 了 巨大 的 帮助 。 


当 我 们 编写 本 书 时 ， 我 们 发 现 有 越 来 越 多 的 领域 需要 刨 根 问 底 。 本 书 的 大 部 分 主题 ， 如 
复制 、 查 询 优化 、InnoDB、 架 构 和 设计 都 足以 单独 成 书 。 因 此 ， 有 了 时候 我 们 不 得 不 在 某 
个 点 停止 深入 ， 把 余下 的 材料 用 在 将 来 可 能 出 版 的 新 版 本 中 ， 或 者 我 们 的 博客 、 演 讲 和 
技术 文章 中 。 


本 书 的 评审 者 给 了 我 们 非常 大 的 帮助 ， 无 论 是 来 自 MySQL AB 公司 内 部 的 人 员 ， 还 是 
外 部 的 人 员 ， 他 们 都 是 MySQL 领域 最 优秀 的 世界 级 专家 。 其 中 包括 MySQL 的 创建 者 
Michael Widenius, InnoDB 的 创建 者 Heikki Tuuri, MySQL 优化 器 团队 的 负责 人 Igor 
Babaev， 以 及 其 他 人 。 


我 还 要 感谢 我 的 妻子 Katya Zaytseva， 我 的 孩子 Ivan 和 Nadezhda， 他 们 允许 我 把 家 庭 时 
间 花 在 了 本 书 的 写作 上 。 我 也 要 感谢 Percona 的 员工 , 当 我 在 公司 里 “人间 蒸发 "去 写 书 时 ， 
他 们 承担 了 日 常事 务 的 处 理工 作 。 当 然 ， 我 也 要 感谢 O'Reilly 和 Andy Oram 让 这 一 切 成 
为 可 能 


来 自 Vadim | 

我 要 感谢 Peter， 能 够 在 本 书 中 和 他 合作 ， 我 感到 十 分 开心 ， 期 望 在 其 他 项 目 中 能 继续 
共事 。 我 也 要 感谢 Baron， 他 在 本 书 的 写作 过 程 中 起 了 很 大 的 作用 。 还 有 Arjen， 跟 他 一 
起 工作 非常 好 玩 。 我 还 要 感谢 我 们 的 编辑 Andy Oram， 他 抱 着 十 二 万 分 的 耐心 和 我 们 一 
起 工作 。 此 外 ， 还 要 感谢 MySQL 团队 ， 是 他 们 创造 了 这 个 伟大 的 软件 。 我 还 要 感谢 我 
们 的 客户 给 予 我 调 优 MySQL 的 机 会 。 最 后 ， 我 要 特别 感谢 我 的 妻子 Valerie， 以 及 我 们 
的 孩子 Myroslav 和 Timur， 他 们 一 直 支 持 我 ， 帮 助 我 一 步 步 前 进 。 


来 目 Arjen 

我 要 感谢 Andy WAS. SAD, BU Baron 中 途 加 入 到 我 们 当中 来 、 感 谢 Peter 和 
Vadim 坚实 的 背景 信息 和 基准 测试 。 也 要 感谢 Jeremy 和 Derek 在 第 一 版 中 打下 的 基础 。 
在 我 的 书 上 ，Derak 题写 着 : “要 诚实 一 这 就 是 我 的 所 有 要 求 。 


我 也 要 感谢 我 在 MySQL AB 公司 时 的 所 有 同事 ， 在 那里 我 获得 了 关于 本 书 主题 的 大 多 数 
知识 。 在 此 ， 我 还 要 特别 提 到 Monty， 我 一 直 认 为 他 是 令 人 自豪 的 MySQL ZR, RE 
他 的 公司 如 今 已 经 成 为 Sun 公司 的 一 部 分 。 我 要 感谢 全 球 MySQL 社区 里 的 每 一 个 人 。 


最 后 同样 重要 的 是 ， 我 要 感谢 我 的 女儿 Phoebe， 在 她 尚 年 少 的 生活 舞台 上 ， 不 用 关心 什 
么 是 MySQL， 也 不 用 考虑 Wiggles 指 的 是 什么 东西 。 从 茶 些 方面 来 讲 ， 无 知 就 是 福 。 它 


能 给 予 我 们 一 个 全 新 的 视角 来 看 清 生命 中 真正 重要 的 是 什么 。 对 于 读者 ， 祝 愿 你 们 的 书 
架 上 又 增添 了 一 本 有 用 的 书 ， 还 有 ， 不 要 忘记 你 的 生活 。 


本 书 第 一 版 的 致谢 

要 完成 这 样 一 本 书 的 写作 ， 离 不 开 许 许多 多 人 的 帮助 。 没 有 他 们 的 无 私 援助 ， 你 手 上 的 
这 本 书 就 可 能 仍然 是 我 们 显示 器 屏幕 四 周 的 那 一 堆 贴纸 。 这 是 本 书 的 一 部 分 ， 在 这 里 ， 
我 们 可 以 感谢 每 一 个 曾经 帮助 我 们 脱离 困境 的 人 ， 而 无 须 担 心 突然 奏 响 的 背景 音乐 催促 
我 们 闭 上 路 巴 赶紧 走 掉 一 如 同 你 在 电视 里 看 到 的 颁奖 晚会 那样 。 


如 果 没 有 编辑 Andy Oram 坚决 的 督促 、 请 求 、 央 求 和 支持 ， 我 们 就 无 法 完成 本 书 。 如 果 
要 找 对 于 本 书 最 负责 的 一 个 人 ， 那 就 是 Andy. RNASE RWS ARs 
的 会 议 。 


然而 ，Andy 不 是 一 个 人 在 战斗 。 在 OReilly， 还 有 一 批 人 都 参与 了 将 那些 小 贴纸 变 成 你 
正在 看 的 这 本 书 的 工作 。 所 以 我 们 也 要 感谢 那些 在 生产 、 插 画 和 销售 环节 的 人 们 ， 感 谢 
你 们 把 这 本 书 变 成 实体 。 当 然 ， 也 要 感谢 Tim O’Reilly， 是 他 持久 不 变 地 承诺 为 广大 开 
源 软 件 出 版 一 批 业内 最 好 的 图 书 。 


最 后 ， 我 们 要 把 感谢 给 予 那些 同意 审阅 本 书 不 同 版 本 草稿 ， 并 告诉 我 们 哪里 有 错误 的 
人 们 : 我 们 的 评审 者 。 他 们 把 2003 年 假期 的 一 部 分 时 间 用 在 了 审阅 这 些 格式 粗糙 ， 充 
满 了 打字 符号 、 误 导 性 的 语句 和 彻底 的 数学 错误 的 文本 上 。 我 们 要 感谢 (排名 不 分 先 
Ja) : Brian “Krow” Aker, Mark “JDBC” Matthews, Jeremy “the other Jeremy” Cole, Mike 
“VBMySQL.com (http://vbmysql.com)” Hillyer, Raymond “Rainman” De Roo, Jeffrey 
“Regex Master” Friedl, Jason DeHaan, Dan Nelson, Steve “Unix Wiz” Friedl, Kasia “Unix 


Girl” Trapszo, 


来 目 Jeremy 


我 要 在 此 感谢 Andy, 是 他 同意 接纳 这 个 项 目 , 并 持续 不 断 地 鞭策 我 们 加 入 新 的 章节 内 容 。 
Derek 的 帮助 也 非常 关键 ， 本 书 最 后 的 20% ~ 30% 内 容 由 他 一 手 完成 ， 这 使 得 我 们 没有 
错过 下 一 个 目标 日 期 。 感 谢 他 同意 中 途 加 入 进来 ， 代 替 我 只 能 偶尔 爆发 一 下 的 零星 生产 
力 ， 完 成 了 关于 XML 的 烦琐 工作 、 第 10 章 、 附 录 了 上， 以 及 我 丢 给 他 的 那些 活 儿 。 


我 也 要 感谢 我 的 父母 ， 在 多 年 以 前 他 们 就 给 我 天 了 Commodore 64 电脑 ， 他 们 不 仅 在 前 


10 年 里 容忍 了 我 就 像 要 以 身 相 许 般 的 对 电子 和 计算 机 技术 的 痴 迷 ， 并 在 之 后 还 成 为 我 不 
懈 学 习 和 探索 的 支持 者 。 


接 下 来 ， 我 要 感谢 在 过 去 几 年 里 在 Yahoo! 布道 推广 MySQL 时 遇 到 的 那 一 群 人 。 跟 他 
们 共事 ， 我 感到 非常 愉快 。 在 本 书 的 筹备 阶段 ，Jeffrey Friedl 和 Ray Goldberger 给 了 我 
鼓励 和 反馈 意见 。 在 他 们 之 后 还 有 Steve Morris, James Harvey 和 Sergey Kolychev RÆ, 
了 我 在 Yahoo! Finance MySQL 服务 器 上 做 着 看 似 固 定 不 变 的 实验 ， 即 使 这 打扰 了 他 们 
的 重要 工作 。 我 也 要 感谢 Yahoo! 的 其 他 成 员 ， 是 他 们 帮 有 我 发 现 了 MySQL 上 的 那些 有 
趣 的 问题 和 解决 方法 。 还 有 ， 最 重要 的 是 要 感谢 他 们 对 我 有 足够 的 信任 和 信念 ， 让 我 把 
MySQL 用 在 Yahoo! 重要 和 可 见 的 部 分 业务 上 。 


Adam Goodman, 一 位 出 版 家 和 Linux Magazine 的 拥有 者 ， 他 帮助 我 轻装 上 阵 为 技术 受 
众 撰写 文章 ,并 在 2001 年 下 半年 第 一 次 出 版 了 我 的 MySQL 相关 的 长 篇 文章 。 自 那 以 后 ， 
他 教授 给 我 更 多 他 所 能 认识 到 的 关于 编辑 和 出 版 的 技能 ， 还 鼓励 我 通过 在 杂志 上 开设 月 
度 专栏 在 这 条 路 上 继续 走 下 去 。 谢 谢 你 ，Adam。 


我 要 感谢 Monty 和 David， 感 谢 你 们 与 这 个 世界 分 享 了 MySQL。 说 到 MySQL AB, 也 
要 感谢 在 那里 的 其 他 “和 牛 ” 人 ， 是 他 们 鼓励 我 写成 本 书 : Kerry, Larry, Joe, Marten, 
Brian, Paul, Jeremy, Mark, Harrison, Matt， 以 及 团队 中 的 其 他 人 。 他 们 真 的 非常 棒 。 


最 后 ， 我 要 感谢 我 博客 的 读者 ， 是 他 们 鼓励 我 撰写 基于 日 常 工作 的 非 正 式 的 MySQL 及 
其 他 技术 文章 。 最 后 同样 重要 的 是 ， 感 谢 Goon Squad, 
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就 像 Jeremy 一 样 ， 有 太 多 同样 的 原因 ， 我 也 要 感谢 我 的 家 庭 。 我 要 感谢 我 的 父母 ， 是 他 
们 不 停 地 鼓励 我 去 写 一 本 书 ， 哪 怕 他 们 头脑 中 都 没有 任何 和 它 相 关 的 东西 。 我 的 祖父 母 
给 我 上 了 两 堂 很 有 价值 的 课 : 美元 的 含义 ， 以 及 我 跟 电 脑 相 爱 有 多 次 ， 他 们 还 借 钱 给 我 
去 购买 了 我 平生 第 一 台电 脑 : Commodore VIC-20。 


我 万 分 感谢 Jeremy 邀请 我 加 入 他 那 旋 风 般 的 写作 “过山车 ”中 来 。 这 是 一 个 很 棒 的 体验 ， 
我 希望 将 来 还 能 跟 他 一 起 工作 。 


我 要 特别 感谢 Raymond De Roo, Brian Wohlgemuth, David Calafrancesco, Tera Doty, Jay 
Rubin, Bill Catlan, Anthony Howe, Mark O’Neal, George Montgomery, George Barber, LA 
及 其 他 无 数 耐心 昕 我 抱怨 的 人 ， 我 从 他 们 那里 了 解 到 我 所 讲述 的 内 容 是 否 能 让 门外汉 也 
能 理解 ， 或 者 仅仅 得 到 一 个 我 所 希望 的 笑脸 。 没 有 他 们 ， 这 本 书 可 能 也 能 写 出 来 ,但 我 
几乎 可 以 肯定 我 会 在 这 个 过 程 中 疯 掉 。 





第 1 章 
MySQLRH SHR 


和 其 他 数据 库 系统 相 比 ，MySQL 有 点 与 众 不 同 ， 它 的 架构 可 以 在 多 种 不 同 场景 中 应 用 
并 发 挥 好 的 作用 ， 但 同时 也 会 带 来 一 点 选择 上 的 困难 。MySQL 并 不 完美 ， 却 足够 灵活 ， 
能 够 适应 高 要 求 的 环境 ， 例 如 Web 类 应 用 。 同 时 ，MySQL BEAT LARA Bl ky AEP, 
也 可 以 支持 数据 仓库 、 内 容 索 引 和 部 署 软 件 、 高 可 用 的 元 余 系 统 、 在 线 事 务 处 理 系统 
(OLTP) 等 各 种 应 用 类 型 。 


为 了 充分 发 挥 MySQL 的 性 能 并 顺利 地 使 用 ， 就 必须 理解 其 设计 。MySQL 的 灵活 性 体 
现在 很 多 方面 。 例 如 ， 你 可 以 通过 配置 使 它 在 不 同 的 硬件 上 都 运行 得 很 好 ， 也 可 以 支持 
多 种 不 同 的 数据 类 型 。 但 是 ，MySQL 最 重要 、 最 与 众 不 同 的 特性 是 它 的 存储 引擎 架构 ， 
这 种 架构 的 设计 将 查询 处 理 (Query Processing) 及 其 他 系统 任务 (Server Task) 和 数据 
的 存储 / 提取 相 分 离 。 这 种 处 理 和 存储 分 离 的 设计 可 以 在 使 用 时 根据 性 能 、 特 性 ， 以 及 
其 他 需求 来 选择 数据 存储 的 方式 。 


本 章 概要 地 描述 了 MySQL 的 服务 器 架构 、 各 种 存储 引擎 之 间 的 主要 区 别 ， 以 及 这 些 区 
别 的 重要 性 。 另 外 也 会 回顾 一 下 MySQL 的 历史 背景 和 基准 测试 ， 并 试图 通过 简化 细节 
和 演示 案例 来 讨论 MySQL 的 原理 。 这 些 讨论 无 论 是 对 数据 库 一 无 所 知 的 新 手 ， 还 是 熟 
知 其 他 数据 库 的 专家 ， 都 不 无 神 益 。 


1.1 MySQL 逻辑 架构 


如 果 能 在 头脑 中 构建 出 一 幅 MySQL 各 组 件 之 间 如 何 协 同 工 作 的 架构 图 ， 就 会 有 助 于 深 
入 理解 MySQL 服务 器 。 图 1-1 展示 了 MySQL 的 逻辑 架构 图 。 





61-1: MySQL 服 务 器 逻辑 架构 图 


最 上 层 的 服务 并 不 是 MySQL 所 独 有 的 ， 大 多 数 基于 网 络 的 客户 端 / 服务 器 的 工具 或 者 
服务 都 有 类 似 的 架构 。 比 如 连接 处 理 、 授 权 认 证 、 安 全 等 等 。 


第 二 层 架 构 是 MySQL 比较 有 意思 的 部 分 。 大 多 数 MySQL 的 核心 服务 功能 都 在 这 一 层 ， 
包括 查询 解析 、 分 析 、 优 化 、 缓 存 以 及 所 有 的 内 置 函 数 ( 例 如 ， 日 期 时间、 数学 和 加 
WAR), ， 所 有 跨 存 储 引 警 的 功能 都 在 这 一 层 实 现 : 存储 过 程 、 触 发 器 、 视 图 等 。 


第 三 层 包含 了 存储 引擎 。 存 储 引 擎 负责 MySQL 中 数据 的 存储 和 提取 。 和 GNU/Linux 下 
的 各 种 文件 系统 一 样 ， 每 个 存储 引擎 都 有 它 的 优势 和 劣势 。 服 务 器 通过 API 与 存储 引擎 
进行 通信 。 这 些 接口 屏蔽 了 不 同 存储 引擎 之 间 的 差异 ， 使 得 这 些 差 异 对 上 层 的 查询 过 程 
透明 。 存 储 引擎 API 包含 几 十 个 底层 函数 ， 用 于 执行 诸如 “开始 一 个 事务 ”或 者 “根据 
主键 提取 一 行 记 录 ” 等 操作 。 但 存储 引擎 不 会 去 解析 SQL'， 不 同 存储 引擎 之 间 也 不 会 
相互 通信 ， 而 只 是 简单 地 响应 上 层 服务 器 的 请 求 。 


1.1.1 连接 管理 与 安全 性 

每 个 客户 端 连接 都 会 在 服务 器 进程 中 拥有 一 个 线程 ， 这 个 连接 的 查询 只 会 在 这 个 单独 的 
线程 中 执行 ， 该 线程 只 能 轮流 在 某 个 CPU 核心 或 者 CPU 中 运行 。 服 务 器 会 负责 缓存 线 
程 ， 因 此 不 需要 为 每 一 个 新 建 的 连接 创建 或 者 销毁 线程 生 ?。 


当 客户 端 (应 用 ) 连接 到 MySQL 服务 器 时 ,服务 器 需要 对 其 进行 认证 。 认 证 基于 用 户 名 、 


注 1 : InnoDB 是 一 个 例外 ， 它 会 解析 外 键 定义 ， 因 为 MySQL 服务 器 本 身 没有 实现 该 功能 。 
注 2: MySQL 5.5 或 者 更 新 的 版 本 提供 了 一 个 API， 支 持 线程 池 (Thread-Pooling) 插件 ， 可 以 使 用 池 中 
少量 的 线程 来 服务 大 量 的 连接 。 
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原始 主机 信息 和 密码 。 如 果 使 用 了 安全 套 接 字 (SSL) 的 方式 连接 ， 还 可 以 使 用 X.509 
证 书 认证 。 一 旦 客户 端 连接 成 功 ， 服 务 器 会 继续 验证 该 客户 端 是 否 具有 执行 某 个 特定 查 
询 的 权限 〈 例 如 ， 是 否 刘 许 客户 端 对 world 数据 库 的 Country ÍF SELECT IE“). 


. 1.1.2 优化 与 执行 


MySQL 会 解析 查询 ， 并 创建 内 部 数据 结构 (解析 树 )， 然 后 对 其 进行 各 种 优化 ， 包 括 重 
写 查 询 、 决 定 表 的 读 取 顺 序 ， 以 及 选择 合适 的 索引 等 。 用 户 可 以 通过 特殊 的 关键 字 提 示 
(hint) 优化 器 ， 影 响 它 的 决策 过 程 。 也 可 以 请 求 优化 器 解释 (explain) 优化 过 程 的 各 个 
因素 ， 使 用 户 可 以 知道 服务 器 是 如 何 进行 优化 决策 的 ， 并 提供 一 个 参考 基准 ， 便 于 用 户 
重 构 碍 询 和 schema、 修 改 相关 配置 ， 使 应 用 尽 可 能 高 效 运 行 。 第 6 章 我 们 将 讨论 更 多 优 
化 器 的 细 市 。 


优化 器 并 不 关心 表 使 用 的 是 什么 存储 引擎 ， 但 存储 引擎 对 于 优化 查询 是 有 影响 的 。 优 化 

会 请 求 存储 引擎 提 供 容 量 或 某 个 具体 操作 的 开销 信息 ， 以 及 表 数 据 的 统计 信息 等 。 例 
如 , 某 些 存 储 引 擎 的 某 种 索引 , 可 能 对 一 些 特定 的 查询 有 优化 ,关于 索引 与 schema 的 优化 ， 
请 参见 第 4 章 和 第 5 章 。 


对 于 SELECT 语句， 在 解析 查询 之 前 ， 服 务 器 会 先 检 查 查 询 缓 存 (Query Cache) ， 如 果 能 
够 在 其 中 找到 对 应 的 查询 ， 服 务 器 就 不 必 再 执行 查询 解析 、 优 化 和 执行 的 整个 过 程 ， 而 
是 直接 返回 查询 缓存 中 的 结果 集 。 第 7 章 详细 讨论 了 相关 内 容 。 


1.2 并 发 控制 


无 论 何 时 ， 只 要 有 多 个 查询 需要 在 同一 时 刻 修改 数据 ， 都 会 产生 并 发 控制 的 问题 。 本 
章 的 目的 是 讨论 MySQL 在 两 个 层面 的 并 发 控制 : 服务 器 层 与 存储 引擎 层 。 并 发 控制 是 
一 个 内 容 庞 大 的 话题 ， 有 大 量 的 理论 文献 对 其 进行 过 详细 的 论述 。 本 章 只 简要 地 讨论 
MySQL 如 何 控制 并 发 读 写 ， 因 此 读者 需要 有 相关 的 知识 来 理解 本 章 接 下 来 的 内 容 。 


LA Unix 系统 的 email box Ail, HAYA mbox 文件 格式 是 非常 简单 的 。 一 个 mbox 邮箱 
中 的 所 有 邮件 都 串 行 在 一 起 ， 彼 此 首尾 相连 。 这 种 格式 对 于 读 取 和 分 析 邮 件 信息 非常 友 
好 ， 同 时 投递 邮件 也 很 容易 ， 只 要 在 文件 末尾 附加 新 的 邮件 内 容 即 可 。 


但 如 果 两 个 进程 在 同一 时 刻 对 同一 个 邮箱 投递 邮件 ， 会 发 生 什么 情况 ? 显然， 邮箱 的 数 < 4 ] 
据 会 被 破坏 ， 两 封 邮 件 的 内 容 会 交叉 地 附加 在 邮箱 文件 的 末尾 。 设 计 良 好 的 邮箱 投递 系 
统 会 通过 锁 (lock) 来 防止 数据 损坏 。 如 果 客 户 试图 投递 邮件 ,而 邮箱 已 经 被 其 他 客户 锁 住 ， 

那 就 必须 等 待 ， 直 到 锁 释 放 才能 进行 投递 。 
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这 种 锁 的 方案 在 实际 应 用 环境 中 虽然 工作 良好 ， 但 并 不 支持 并 发 处 理 。 因 为 在 任意 一 个 
时 刻 ， 只 有 一 个 进程 可 以 修改 邮箱 的 数据 ， 这 在 大 容量 的 邮箱 系统 中 是 个 问题 。 


1.2.1 读 写 锁 

从 邮箱 中 读 取 数据 没有 这 样 的 麻烦 ， 即 使 同一 时 刻 多 个 用 户 并 发 读 取 也 不 会 有 什么 问题 。 
因为 读 取 不 会 修改 数据 ， 所 以 不 会 出 错 。 但 如 果 某 个 客户 正在 读 取 邮箱 ， 同 时 另外 一 个 
用 户 试图 删除 编号 为 25 的 邮件 ， 会 产生 什么 结果 ? 结论 是 不 确定 ， 读 的 客户 可 能 会 

错 退 出 ， 也 可 能 读 取 到 不 一 致 的 邮箱 数据 。 所 以 ， 为 安全 起 见 ， 即 使 是 读 取 邮 箱 也 需要 
特别 注意 。 


如 果 把 上 述 的 邮箱 当成 数据 库 中 的 一 张 表 ， 把 邮件 当成 表 中 的 一 行 记录 ， 就 很 容易 看 出 ， 
同样 的 问题 依然 存在 。 从 很 多 方面 来 说 ， 邮 箱 就 是 一 张 简单 的 数据 库 表 。 修 改 数据 库 表 
中 的 记录 ， 和 删除 或 者 修改 邮箱 中 的 邮件 信息 ， 十 分 类 似 。 


解决 这 类 经 典 问 题 的 方法 就 是 并 发 控制 ， 其 实 非常 简单 。 在 处 理 并 发 读 或 者 写 时 ， 可 以 
通过 实现 一 个 由 两 种 类 型 的 锁 组 成 的 锁 系 统 来 解决 问题 。 这 两 种 类 型 的 锁 通 常 被 称 为 共 
享 锁 (shared lock) 和 排他 锁 (exclusive lock) ， 也 叫 读 锁 (read lock) 和 写 锁 (write 
lock) 。 


这 里 先 不 讨论 锁 的 具体 实现 ， 描 述 一 下 锁 的 概念 如 下 : 读 锁 是 共享 的 ， 或 者 说 是 相互 不 
阻塞 的 。 多 个 客户 在 同一 时 刻 可 以 同时 读 取 同 一 个 资源 ， 而 互 不 干扰 。 写 锁 则 是 排他 的 ， 
也 就 是 说 一 个 写 锁 会 阻塞 其 他 的 写 锁 和 读 锁 ， 这 是 出 于 安全 策略 的 考虑 ， 只 有 这 样 ， 才 
能 确保 在 给 定 的 时 间 里 ， 只 有 一 个 用 户 能 执行 写 入 ， 并 防止 其 他 用 户 读 取 正 在 写 入 的 同 
一 资源 。 


在 实际 的 数据 库 系统 中 ， 每 时 每 刻 都 在 发 生 锁定 ， 当 某 个 用 户 在 修改 某 一 部 分 数据 时 ， 
MySQL 会 通过 锁定 防止 其 他 用 户 读 取 同 一 数据 。 大 多 数 时 候 ，MySQL 锁 的 内 部 管理 都 
是 透明 的 。 


1.2.2 锁 粒 度 
一 种 提高 共享 资源 并 发 性 的 方式 就 是 让 锁定 对 象 更 有 选择 性 。 尽 量 只 锁定 需要 修改 的 部 
分 数据 ， 而 不 是 所 有 的 资源 。 更 理想 的 方式 是 ， 只 对 会 修改 的 数据 片 进行 精确 的 锁定 。 
任何 时 候 ， 在 给 定 的 资源 上 ， 锁 定 的 数据 量 越 少 ， 则 系统 的 并 发 程度 越 高 ， 只 要 相互 之 
间 不 发 生 冲 突 即 可 。 


问题 是 加 锁 也 需要 消耗 资源 。 锁 的 各 种 操作 ， 包 括 获 得 锁 、 检 查 锁 是 否 已 经 解除 、 释 放 
锁 等 ， 都 会 增加 系统 的 开销 。 如 果 系 统 花 费 大 量 的 时 间 来 管理 锁 ， 而 不 是 存 取 数据 ， 那 


4 | #18 MySQL 架 构 与 历史 


么 系统 的 性 能 可 能 会 因此 受到 影响 。 


所 谓 的 锁 策略 ， 就 是 在 锁 的 开销 和 数据 的 安全 性 之 间 寻 求 平 衡 ， 这 种 平衡 当然 也 会 影响 

到 性 能 。 大 多 数 商 业 数据 库 系统 设 有 提供 更 多 的 选择 ,一般 都 是 在 表 上 施加 行 级 锁 (row- 

level lock) ， 并 以 各 种 复杂 的 方式 来 实现 ， 以 便 在 锁 比较 多 的 情况 下 尽 可 能 地 提供 更 好 
的 性 能 。 | 


Ti MySQL 则 提供 了 多 种 选择 。 每 种 MySQL 存储 引擎 都 可 以 实现 自己 的 锁 策 略 和 锁 粒 度 。 
在 存储 引擎 的 设计 中 ， 锁 管理 是 个 非常 重要 的 决定 。 将 锁 粒 度 固 定 在 某 个 级 别 ， 可 以 为 
某 些 特定 的 应 用 场景 提供 更 好 的 性 能 ， 但 同时 却 会 失去 对 另外 一 些 应 用 场景 的 良好 支持 。 
好 在 MySQL 支持 多 个 存储 引擎 的 架构 ， 所 以 不 需要 单一 的 通用 解决 方案 。 下 面 将 介绍 
两 种 最 重要 的 锁 策略 。 


表 锁 (table lock) 


Zeit MySQL 中 最 基本 的 锁 策略 ， 并 且 是 开销 最 小 的 策略 。 表 锁 非 常 类 似 于 前 文 描述 
的 邮箱 加 锁 机 制 : 它 会 锁定 整 张 表 。 一 个 用 户 在 对 表 进 行 写 操作 (插入 、 删 除 、 更 新 等 ) 
前 ， 需 要 先 获 得 写 锁 ， 这 会 阻塞 其 他 用 户 对 该 表 的 所 有 读 写 操作 。 只 有 没有 写 锁 时 ， 其 
他 读 取 的 用 户 才能 获得 读 锁 ， 读 锁 之 间 是 不 相互 阻塞 的 。 


在 特定 的 场景 中 ， 表 锁 也 可 能 有 良好 的 性 能 。 例 如 ，READ LOCAL 表 锁 支持 某 些 类 型 的 并 
发 写 操 作 。 另 外 ， 写 锁 也 比 读 锁 有 更 高 的 优先 级 ， 因 此 一 个 写 锁 请 求 可 能 会 被 插入 到 读 
锁 队 列 的 前 面 ( 写 锁 可 以 插入 到 锁 队 列 中 读 锁 的 前 面 ， 反 之 读 锁 则 不 能 插入 到 写 锁 的 前 
面 )。 


尽管 存储 引擎 可 以 管理 自己 的 锁 ，MySQL 本 身 还 是 会 使 用 各 种 有 效 的 表 锁 来 实现 不 同 
的 目的 。 例 如 ， 服 务 器 会 为 诸如 ALTER TABLE 之 类 的 语句 使 用 表 锁 ， 而 忽略 存储 引擎 的 
锁 机 人 制 。 


行 级 锁 (row lock) 


行 级 锁 可 以 最 大 程度 地 支持 并 发 处 理 〈 同 时 也 带 来 了 最 大 的 锁 开 销 )。 众 所 周知 ， 在 
InnoDB 和 XtraDB ， 以 及 其 他 一 些 存储 引擎 中 实现 了 行 级 锁 。 行 级 锁 只 在 存储 引擎 层 实 
现 ， 而 MySQL 服务 器 层 (如 有 必要 ， 请 回顾 前 文 的 逻辑 架构 图 ) 没有 实现 。 服 务 器 层 
完全 不 了 解 存储 引擎 中 的 锁 实 现 。 在 本 章 的 后 续 内 容 以 及 全 书 中 ， 所 有 的 存储 引擎 都 以 
自己 的 方式 显现 了 锁 机 制 。 
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1.3 事务 


在 理解 事务 的 概念 之 前 ， 接 触 数据 库 系 统 的 其 他 高 级 特性 还 言 之 过 早 。 事 务 就 是 一 组 原 
子 性 的 SQL 查询 ， 或 者 说 一 个 独立 的 工作 单元 。 如 果 数 据 库 引擎 能 够 成 功 地 对 数据 库 应 
用 该 组 查询 的 全 部 语句 ， 那 么 就 执行 该 组 查询 。 如 果 其 中 有 任何 一 条 语句 因为 崩溃 或 其 
他 原因 无 法 执行 ， 那 么 所 有 的 语句 都 不 会 执行 。 也 就 是 说 ， 事 务 内 的 语句 ， 要 么 全 部 执 
行 成 功 ， 要 么 全 部 执行 失败 。 


本 节 的 内 容 并 非 专 属于 MySQL， 如 果 读 者 已 经 熟悉 了 事务 的 ACID 的 概念 ， 可 以 直接 
跳 转 到 1.3.4 节 。 


银行 应 用 是 解释 事务 必要 性 的 一 个 经 典 例 子 。 假 设 一 个 银行 的 数据 库 有 两 张 表 : 支票 
(checking) 表 和 储蓄 (savings) 表 。 现 在 要 从 用 户 Jane 的 支票 账户 转移 200 美元 到 她 
的 储蓄 账户 ， 那 么 需要 至 少 三 个 步骤 : 


1. 检查 支票 账户 的 余额 高 于 200 美元 。 
2. 从 支票 账户 余额 中 减 去 200 美元 。 
3. 在 储蓄 账户 余额 中 增加 200 美元 。 


上 述 三 个 步骤 的 操作 必须 打包 在 一 个 事务 中 ， 任 何 一 个 步骤 失败 ， 则 必须 回 深 所 有 的 步 
T. 


可 以 用 START TRANSACTION 语句 开始 一 个 事务 ， 然 后 要 么 使 用 COMMIT 提交 事务 将 修改 的 
数据 持久 保留 ， 要 么 使 用 ROLLBACK 撤销 所 有 的 修改 。 事 务 SQL 的 样本 如 下 : 

START TRANSACTION; 

SELECT balance FROM checking WHERE customer_id = 10233276; 

UPDATE checking SET balance = balance - 200.00 WHERE customer_id = 10233276; 

UPDATE savings SET balance = balance + 200.00 WHERE customer_id = 10233276; 

COMMIT; 

EEE EE Ss BLE ES BB. AET, SORT Bl A ARIS AT ARS 2S HATE T , 
会 发 生 什么 ?天 知道 ， 用 户 可 能 会 损失 200 美元 。 再 假如 ， 在 执行 到 第 三 条 语句 和 第 四 
条 语句 之 间 时 ， 另 外 一 个 进程 要 删除 支票 账户 的 所 有 余额 ， 那 么 结果 可 能 就 是 银行 在 不 
知道 这 个 逻辑 的 情况 下 白白 给 了 Jane 200 美元 。 


除非 系统 通过 严格 的 ACID 测试 ， 否 则 空谈 事务 的 概念 是 不 够 的 。ACID 表示 原子 性 
(atomicity) 、 一 致 性 (consistency), RATE (isolation) 和 持久 性 (durability) 。 一 个 运 
行 良 好 的 事务 处 理 系统 ， 必 须 具备 这 些 标准 特征 。 


Wm PWN PP 
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原子 性 (atomicity) 
一 个 事务 必须 被 视 为 一 个 不 可 分 割 的 最 小 工作 单元 ， 整 个 事务 中 的 所 有 操作 要 么 全 
部 提交 成 功 ， 要 么 全 部 失败 回 滚 ， 对 于 一 个 事务 来 说 ， 不 可 能 只 执行 其 中 的 一 部 分 
操作 ， 这 就 是 事务 的 原子 性 。 
一 致 性 (consistency) 
数据 库 总 是 从 一 个 一 致 性 的 状态 转换 到 另外 一 个 一 致 性 的 状态 。 在 前 面 的 例子 中 ， 
一 致 性 确保 了 ， 即 使 在 执行 第 三 、 四 条 语句 之 间 时 系统 崩 涡 ， 支 票 账 户 中 也 不 会 损 
失 200 美元 ,因为 事务 最 终 没 有 提交 ,所 以 事务 中 所 做 的 修改 也 不 会 保存 到 数据 库 中 。 
隔离 性 (isolation) 
通常 来 说 ， 一 个 事务 所 做 的 修改 在 最 终 提交 以 前 ， 对 其 他 事务 是 不 可 见 的 。 在 前 面 
的 例子 中 ， 当 执行 完 第 三 条 语句 、 第 四 条 语句 还 未 开始 时 ， 此 时 有 另外 一 个 账户 汇 
总 程序 开始 运行 ， 则 其 看 到 的 支票 账户 的 余额 并 没有 被 减 去 200 美元 。 后 面 我 们 讨 
论 隔离 级 别 (Isolation level) 的 时 候 , 会 发 现 为 什么 我 们 要 说 “通常 来 说 ”是 不 可 见 的 。 
持久 性 (durability) 
一 旦 事务 提交 ， 则 其 所 做 的 修改 就 会 永和 久保 存 到 数据 库 中 。 此 时 即使 系统 崩溃 ， 修 
改 的 数据 也 不 会 丢失 。 持 久 性 是 个 有 点 模糊 的 概念 ， 因 为 实际 上 持久 性 也 分 很 多 
不 同 的 级 别 。 有 些 持久 性 策略 能 够 提供 非常 强 的 安全 保障 ， 而 有 些 则 未 必 。 而 且 
不 可 能 有 能 做 到 100% 的 持久 性 保证 的 策略 (如 果 数 据 库 本 身 就 能 做 到 真正 的 持久 
性 ， 那 么 备份 又 怎么 能 增加 持久 性 呢 ? )。 在 后 面 的 一 些 章节 中 ， 我 们 会 继续 讨论 
MySQL 中 持久 性 的 真正 含义 。 


事务 的 ACID 特性 可 以 确保 银行 不 会 弄 丢 你 的 钱 。 而 在 应 用 逻辑 中 ,要 实现 这 一 点 非常 难 ， 
其 至 可 以 说 是 不 可 能 完成 的 任务 。 一 个 兼容 ACID 的 数据 库 系 统 ， 需 要 做 很 多 复杂 但 可 
能 用 户 并 没有 觉察 到 的 工作 ， 才 能 确保 ACID 的 实现 。 


就 像 锁 粒度 的 升级 会 增加 系统 开销 一 样 ， 这 种 事务 处 理 过 程 中 额外 的 安全 性 ， 也 会 需要 
数据 库 系统 做 更 多 的 额外 工作 。 一 个 实现 了 ACID 的 数据 库 ， 相 比 没有 实现 ACID 的 数 
据 库 ， 通 常会 需要 更 强 的 CPU 处 理 能 力 、 更 大 的 内 存 和 更 多 的 磁盘 空间 。 正 如 本 章 不 断 
重复 的 ， 这 也 正 是 MySQL 的 存储 引擎 架构 可 以 发 挥 优势 的 地 方 。 用 户 可 以 根据 业务 是 
合 需 要 事务 处 理 ， 来 选择 合适 的 存储 引擎 。 对 于 一 些 不 需要 事务 的 查询 类 应 用 ， 选 择 
一 个 非 事 务 型 的 存储 引擎 ， 可 以 获得 更 高 的 性 能 。 即 使 存储 引擎 不 支持 事务 ， 也 可 以 
通过 LOCK TABLES 语句 为 应 用 提供 一 定 程度 的 保护 ， 这 些 选 择 用 户 都 可 以 自主 决定 。 
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1.3.1 隔离 级 别 

隔离 性 其 实 比 想象 的 要 复杂 。 在 SQL 标准 中 定义 了 四 种 隔离 级 别 ， 每 一 种 级 别 都 规定 了 
一 个 事务 中 所 做 的 修改 ， 哪 些 在 事务 内 和 事务 间 是 可 见 的 ， 哪 些 是 不 可 见 的 。 较 低级 别 
的 隔离 通常 可 以 执行 更 高 的 并 发 ， 系 统 的 开销 也 更 低 。 


wT a, 
A 4 


每 种 存储 引 警 实 现 的 隔离 级 别 不 尽 相同 。 如 果 熟 悉 其 他 的 数据 库 产品 ， 可 能 会 发 现 
。 某 些 特性 和 你 期 望 的 会 有 些 不 一 样 〈 但 本 节 不 打算 讨论 更 详细 的 内 容 )。 读 者 可 以 
"根据 所 选择 的 存储 引擎 ， 查 阅 相 关 的 手册 。 





下 面 简单 地 介绍 一 下 四 种 隔离 级 别 。 


READ UNCOMMITTED (未 提交 读 ) 
在 READ UNCOMMITTED 级 别 ， 事 务 中 的 修改 ， 即 使 没有 提交 ， 对 其 他 事务 也 都 是 可 见 
的 。 事 务 可 以 读 取 未 提交 的 数据 ， 这 也 被 称 为 脏 读 (Dirty Read)。 这 个 级 别 会 导致 
很 多 问题 ， 从 性 能 上 来 说 ，READ UNCOMMITTED 不 会 比 其 他 的 级 别 好 太 多 ， 但 却 缺 乏 
其 他 级 别 的 很 多 好 处 ， 除 非 真 的 有 非常 必要 的 理由 ， 在 实际 应 用 中 一 般 很 少 使 用 。 

READ COMMITTED (提交 读 ) 
大 多 数 数据 库 系 统 的 默认 隔离 级 别 都 是 READ COMMITTED (但 MySQL RÆ). READ 
COMMITTED 满足 前 面 提 到 的 隔离 性 的 简单 定义 : 一 个 事务 开始 时 ， 只 能 “看 见 ” 已 
经 提交 的 事务 所 做 的 修改 。 换 句 话 说， 一 个 事务 从 开始 直到 提交 之 前 ， 所 做 的 任何 
修改 对 其 他 事务 都 是 不 可 见 的 。 这 个 级 别 有 时 候 也 叫做 不 可 重复 读 (nonrepeatable 
read) ， 因 为 两 次 执行 同样 的 查询 ， 可 能 会 得 到 不 一 样 的 结果 。 

REPEATABLE READ (可 重复 读 ) 
REPEATABLE READ 解决 了 脏 读 的 问题 。 该 级 别 保证 了 在 同一 个 事务 中 多 次 读 取 同 样 
记录 的 结果 是 一 致 的 。 但 是 理论 上 ， 可 重复 读 隔离 级 别 还 是 无 法 解决 另外 一 个 幻 读 
(Phantom Read) 的 问题 。 所 谓 幻 读 ， 指 的 是 当 某 个 事务 在 读 取 某 个 范围 内 的 记录 时 ， 
另外 一 个 事务 又 在 该 范围 内 插入 了 新 的 记录 ， 当 之 前 的 事务 再 次 读 取 该 范围 的 记录 
时 ， 会 产生 幻 行 (Phantom Row), InnoDB 和 XtraDB 存储 引擎 通过 多 版 本 并 发 控 
fil] (MVCC, Multiversion Concurrency Control) 解决 了 幻 读 的 问题 。 本 章 稍 后 会 做 
进一步 的 讨论 。 
可 重复 读 是 MySQL 的 默认 事务 隔离 级 别 。 

SERIALIZABLE (可 串 行 化 ) 
SERIALIZABLE 是 最 高 的 隔离 级 别 。 它 通过 强制 事务 串 行 执行 ， 避 免 了 前 面 说 的 幻 读 
的 问题 。 简 单 来 说 ，SERIALIZABLE 会 在 读 取 的 每 一 行 数据 上 都 加 锁 ， 所 以 可 能 导致 
大 量 的 超时 和 锁 争 用 的 问题 。 实 际 应 用 中 也 很 少 用 到 这 个 隔离 级 别 ， 只 有 在 非常 需 
要 确保 数据 的 一 致 性 而 且 可 以 接受 没有 并 发 的 情况 下 ， 才 考虑 采用 该 级 别 。 
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71-1; ANS! SQL 隔离 级 别 


隔离 级 别 脏 读 可 能 性 ”不 可 重复 读 可 能 性 RTE MER 
READ UNCOMMITTED Yes Yes | Yes No 
READ COMMITTED No Yes Yes No 
REPEATABLE READ No No Yes No 
SEE 


1.3.2 死 锁 
死 锁 是 指 两 个 或 者 多 个 事务 在 同一 资源 上 相互 占用 ， 并 请 求 锁 定 对 方 占 用 的 资源 ， 从 而 
导致 恶性 循环 的 现象 。 当 多 个 事务 试图 以 不 同 的 顺序 锁定 资源 时 ， 就 可 能 会 产生 死 锁 。 
多 个 事务 同时 锁定 同一 个 资源 时 ， 也 会 产生 死 锁 。 例 如 ， 设 想 下 面 两 个 事务 同时 处 理 
StockPrice # : 


事务 1 
START TRANSACTION; 
UPDATE StockPrice SET close = 45.50 WHERE stock id = 4 and date = ‘2002-05-01'; 
UPDATE StockPrice SET close = 19.80 WHERE stock id = 3 and date = ‘2002-05-02'; 
COMMIT; 

事务 2 


START TRANSACTION; 
UPDATE StockPrice SET high = 20.12 WHERE stock id = 3 and date = ‘'2002-05-02'; 
UPDATE StockPrice SET high = 47.20 WHERE stock id = 4 and date = ‘2002-05-01'; 
COMMIT; 
如 果 凑 巧 ， 两 个 事务 都 执行 了 第 一 条 UPDATE 语句 ， 更 新 了 一 行 数据 ， 同 时 也 锁定 了 该 行 
数据 ， 接 着 每 个 事务 都 尝试 去 执行 第 二 条 UPDATE 语句 ， 却 发 现 该 行 已 经 被 对 方 锁定 ， 然 
后 两 个 事务 都 等 待 对 方 释 放 锁 ， 同 时 又 持 有 对 方 需要 的 锁 ， 则 陷入 死 循环 。 除 非 有 外 部 
Als It AD BT BE RE BR IC EM 


为 了 解决 这 种 问题 ， 数 据 库 系统 实现 了 各 种 死 锁 检测 和 和 死 锁 超时 机 制 。 越 复杂 的 系统 ， 
比如 InnoDB 存储 引擎 ， 越 能 检测 到 死 锁 的 循环 依赖 ， 并 立即 返回 一 个 错误 。 这 种 解决 
方式 很 有 效 ， 否 则 死 锁 会 导致 出 现 非常 慢 的 查询 。 还 有 一 种 解决 方式 ， 就 是 当 查 询 的 时 
间 达 到 锁 等 待 超时 的 设 定 后 放弃 锁 请 求 ， 这 种 方式 通常 来 说 不 太 好 。InnoDB 目前 处 理 
死 锁 的 方法 是 ， 将 持 有 最 少 行 级 排他 锁 的 事务 进行 回 深 (这 是 相对 比较 简单 的 死 锁 回 
RRE). 


锁 的 行为 和 顺序 是 和 存储 引擎 相关 的 。 以 同样 的 顺序 执行 语句 ， 有 些 存储 引擎 会 产生 死 
锁 ， 有 些 则 不 会 。 死 锁 的 产生 有 双重 原因 : 有 些 是 因为 真正 的 数据 冲突 ， 这 种 情况 通常 
很 难 避免 ， 但 有 些 则 完全 是 由 于 存储 引擎 的 实现 方式 导致 的 。 
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| 0 > 死 锁 发 生 以 后 ， 只 有 部 分 或 者 完全 回 滚 其 中 一 个 事务 ， 才 能 打破 死 锁 。 对 于 事务 型 的 系 
统 ， 这 是 无 法 避免 的 ， 所 以 应 用 程序 在 设计 时 必须 考虑 如 何 处 理 死 锁 。 大 多 数 情况 下 只 
需要 重新 执行 因 死 锁 回 滚 的 事务 即 可 。 


1.3.3 事务 日 志 

事务 日 志 可 以 帮助 提高 事务 的 效率 。 使 用 事务 日 志 ， 存 储 引 擎 在 修改 表 的 数据 时 只 需要 
修改 其 内 存 拷贝 ， 再 把 该 修改 行为 记录 到 持久 在 硬盘 上 的 事务 日 志 中 ， 而 不 用 每 次 都 将 
修改 的 数据 本 身 持 久 到 磁盘 。 事 务 日 志 采 用 的 是 追加 的 方式 ， 因 此 写 日 志 的 操作 是 磁盘 
上 一 小 块 区 域内 的 顺序 IO ， 而 不 像 随机 IO 需要 在 磁盘 的 多 个 地 方 移动 磁头 ， 所 以 采用 
事务 日 志 的 方式 相对 来 说 要 快 得 多 。 事 务 日 志 持 久 以 后 ， 内 存 中 被 修改 的 数据 在 后 台 可 
以 慢 慢 地 刷 回 到 磁盘 。 目 前 大 多 数 存储 引擎 都 是 这 样 实 现 的 ， 我 们 通常 称 之 为 预 写 式 日 
志 (Write-Ahead Logging) ， 修 改 数据 需要 写 两 次 磁盘 。 


如 果 数据 的 修改 已 经 记录 到 事务 日 志 并 持久 化 ， 但 数据 本 身 还 没有 写 回 磁盘 ， 此 时 系统 
崩溃 ， 存 储 引擎 在 重启 时 能 够 自动 恢复 这 部 分 修改 的 数据 。 具 体 的 恢复 方式 则 视 存 储 引 
ETZ. 


1.3.4 MySQL 中 的 事务 


MySQL 提供 了 两 种 事务 型 的 存储 引擎 ; InnoDB 和 NDB Cluster。 另 外 还 有 一 些 第 三 方 
存储 引擎 也 支持 事务 ， 比 较 知 名 的 包括 XtraDB 和 PBXT。 后 面 将 详细 讨论 它们 各 自 的 
一 些 特点 。 


自动 提交 (AUTOCOMMIT) 

MySQL 默认 采用 自动 提交 (AUT0COMMIT) 模式 。 也 就 是 说 ， 如 果 不 是 显 式 地 开始 一 
个 事务 ， 则 每 个 查询 都 被 当 作 一 个 事务 执行 提交 操作 。 在 当前 连接 中 ， 可 以 通过 设置 
AUTOCOMMIT 变量 来 启用 或 者 禁用 自动 提交 模式 : 


nba SHOW VARIABLES LIKE ‘AUTOCOMMIT' ; 


--------------- +-------+ 
| Variable name | Value | 
+--------------- +------- + 
| autocommit | ON | 
+--------------- +------- + 


1 row in set (0.00 sec) 
mysql> SET AUTOCOMMIT = 1; 


1 或 者 ON 表示 启用 ，0 或 者 OFF 表示 禁用 。 当 AUTOCOMMIT=0 时 ， 所 有 的 查询 都 是 在 一 个 
事务 中 ， 直 到 显 式 地 执行 COMMIT 提交 或 者 ROLLBACK 回 滚 ， 该 事务 结束 ， 同 时 又 开始 了 
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另 一 个 新 事务 。 修 改 AUTOCOMMIT 对 非 事务 型 的 表 ， 比 如 MyISAM 或 者 内 存 表 ， 不 会 有 
任何 影响 。 对 这 类 表 来 说 ， 没 有 COMMIT 或 者 ROLLBACK 的 概念 ， 也 可 以 说 是 相当 于 一 直 
处 于 AUTOCOMMIT 启用 的 模式 。 


另外 还 有 一 些 命令 ， 在 执行 之 前 会 强制 执行 COMMIT 提交 当前 的 活动 事务 。 典 型 的 例子 ， 
在 数据 定义 语言 (DDL) 中 ， 如 果 是 会 导致 大 量 数据 改变 的 操作 ， 比 如 ALTER TABLE, 
就 是 如 此 。 另 外 还 有 LOCK TABLES 等 其 他 语句 也 会 导致 同样 的 结果 。 如 果 有 需要 ， 请 检 
查 对 应 版 本 的 官方 文档 来 确认 所 有 可 能 导致 自动 提交 的 语句 列表 。 


MySQL 可 以 通过 执行 SET TRANSACTION ISOLATION LEVEL 命令 来 设置 隔离 级 别 。 新 的 
隔离 级 别 会 在 下 一 个 事务 开始 的 时 候 生效 。 可 以 在 配置 文件 中 设置 整个 数据 库 的 隔离 级 
别 ， 也 可 以 只 改变 当前 会 话 的 隔离 级 别 : 


mysql> SET SESSION TRANSACTION ISOLATION LEVEL READ COMMITTED; 


MySQL 能 够 识别 所 有 的 4 A ANSI 隔离 级 别 ，InnoDB 引擎 也 支持 所 有 的 隔离 级 别 。 


在 事务 中 混合 使 用 存储 引擎 
MySQL 服务 器 层 不 管理 事务 ， 事 务 是 由 下 层 的 存储 引擎 实现 的 。 所 以 在 同一 个 事务 中 ， 
使 用 多 种 存储 引擎 是 不 可 靠 的 。 


如 果 在 事务 中 混合 使 用 了 事务 型 和 非 事务 型 的 表 (例如 InnoDB 和 MyISAM 表 )， 在 正 
常 提交 的 情况 下 不 会 有 什么 问题 。 


但 如 果 该 事务 需要 回 深 ， 非 事务 型 的 表 上 的 变更 就 无 法 撤销 ， 这 会 导致 数据 库 处 于 不 一 
致 的 状态 ， 这 种 情况 很 难 修复 ， 事 务 的 最 终结 果 将 无 法 确定 。 所 以 ， 为 每 张 表 选 择 合适 
的 存储 引擎 非常 重要 。 


在 非 事 务 型 的 表 上 执行 事务 相关 操作 的 时 候 ，MySQL 通常 不 会 发 出 提醒 ， 也 不 会 报错 。 
有 了 时候 只 有 回 滚 的 时 候 才 会 发 出 一 个 警告 : 某 些 非 事务 型 的 表 上 的 变更 不 能 被 回 滚 ”。 
但 大 多 数 情况 下 ， 对 非 事 务 型 表 的 操作 都 不 会 有 提示 。 


隐 式 和 显 式 锁定 

InnoDB 采用 的 是 两 阶段 锁定 协议 (two-phase locking protocol) 。 在 事务 执行 过 程 中 ， 随 
时 都 可 以 执行 锁定 ， 锁 只 有 在 执行 COMIT 或 者 ROLLBACK 的 时 候 才 会 释放 ， 并 且 所 有 的 
锁 是 在 同一 时 刻 被 释放 。 前 面 描述 的 锁定 都 是 隐 式 锁定 ，InnoDB 会 根据 隔离 级 别 在 需 
要 的 时 候 自 动 加 锁 。 
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另外 ，InnoDB 也 支持 通过 特定 的 语句 进行 显 式 锁定 ， 这 些 语句 不 属于 SQL 规范 : 


e SELECT ... LOCK IN SHARE MODE 
e SELECT ... FOR UPDATE 


MySQL 也 支持 LOCK TABLES 和 UNLOCK TABLES 语句 ， 这 是 在 服务 器 层 实 现 的 ， 和 存储 
引 警 无关。 它们 有 自己 的 用 途 ， 但 并 不 能 替代 事务 处 理 。 如 果 应 用 需要 用 到 事务 ， 还 是 
应 该 选择 事务 型 存储 引擎 。 


经 常 可 以 发 现 ， 应 用 已 经 将 表 从 MyISAM 转换 到 InnoDB， 但 还 是 显 式 地 使 用 LOCK 
TABLES 语句 。 这 不 但 没有 必要 ， 还 会 严重 影响 性 能 ， 实 际 上 InnoDB 的 行 级 锁 工作 得 
更 好 。 


[C] LOCK TABLES 和 事务 之 间 相 互 影 响 的 话 ， 情 况 会 变 得 非常 复杂 ， 在 某 些 MySQL 版 本 
“= 中 甚至 会 产生 无 法 预料 的 结果 。 因 此 ， 本 书 建议 ， 除 了 事务 中 禁用 了 AUTOCOMMIT, 
可 以 使 用 LOCK TABLES 之 外 ， 其 他 任何 时 候 都 不 要 显 式 地 执行 LOCK TABLES， 不 管 

使 用 的 是 什么 存储 引擎 。 


1.4 多 版 本 并 发 控制 


MySQL 的 大 多 数 事务 型 存储 引擎 实现 的 都 不 是 简单 的 行 级 锁 。 基 于 提升 并 发 性 能 的 考 
虑 ， 它 们 一 般 都 同时 实现 了 多 版 本 并 发 控制 (MVCC)。 不 仅 是 MySQL， 包 括 Oracle, 
PostgreSQL 等 其 他 数据 库 系 统 也 都 实现 了 MVCC， 但 各 自 的 实现 机 制 不 尽 相 同 ， 因 为 
MVCC 没有 一 个 统一 的 实现 标准 。 


可 以 认为 MVCC 是 行 级 锁 的 一 个 变种 ， 但 是 它 在 很 多 情况 下 避免 了 加 锁 操作 ， 因 此 开 
销 更 低 。 虽 然 实现 机 制 有 所 不 同 ， 但 大 都 实现 了 非 阻塞 的 读 操作 ， 写 操作 也 只 锁定 必要 
的 行 。 | 

MVCC 的 实现 ， 是 通过 保存 数据 在 某 个 时 间 点 的 快照 来 实现 的 。 也 就 是 说 ， 不 管 需要 执 
行 多 长 时 间 ， 每 个 事务 看 到 的 数据 都 是 一 致 的 。 根 据 事务 开始 的 时 间 不 同 ， 每 个 事务 对 
同一 张 表 ， 同 一 时 刻 看 到 的 数据 可 能 是 不 一 样 的 。 如 果 之 前 没有 这 方面 的 概念 ， 这 句 话 
听 起 来 就 有 点 迷惑 。 熟 悉 了 以 后 会 发 现 ， 这 句 话 其 实 还 是 很 容易 理解 的 。 


前 面 说 到 不 同 存储 引擎 的 MVCC 实现 是 不 同 的 ， 典 型 的 有 乐观 (optimistic) 并 发 控制 
和 悲观 (pessimistic) 并 发 控制 。 下 面 我 们 通过 InnoDB 的 简化 版 行为 来 说 明 MVCC 是 
如 何 工 作 的 。 


23: 这 些 锁定 提示 经 常 被 滥用 ， 实 际 上 应 当 尽 量 避 免 使 用 。 第 6 章 有 更 详细 的 讨论 。 
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InnoDB 的 MVCC， 是 通过 在 每 行 记录 后 面 保存 两 个 隐藏 的 列 来 实现 的 。 这 两 个 列 ， 一 
个 保存 了 行 的 创建 时 间 ， 一 个 保存 行 的 过 期 时 间 〈 或 删除 时 间 ) 。 当 然 存 储 的 并 不 是 实 
际 的 时 间 值 ， 而 是 系统 版 本 号 (system version number) 。 每 开始 一 个 新 的 事务 ， 系 统 版 
本 号 都 会 自动 递增 。 事 务 开始 时 刻 的 系统 版 本 号 会 作为 事务 的 版 本 号 ， 用 来 和 查询 到 的 
每 行 记 录 的 版 本 号 进行 比较 。 下 面 看 一 下 在 REPEATABLE READ 隔离 级 别 下 ，MVCC 具体 
是 如 何 操 作 的 。 


SELECT 
InnoDB 会 根据 以 下 两 个 条 件 检查 每 行 记 录 : 
a. InnoDB 只 查找 版 本 早 于 当前 事务 版 本 的 数据 行 (也 就 是 ， 行 的 系统 版 本 号 小 
.于 或 等 于 事务 的 系统 版 本 号 )， 这 样 可 以 确保 事务 读 取 的 行 ， 要么 是 在 事务 开 
始 前 已 经 存在 的 ， 要 么 是 事务 自身 插入 或 者 修改 过 的 。 
b. 行 的 删除 版 本 要 么 未 定义 ， 要 么 大 于 当前 事务 版 本 号 。 这 可 以 确保 事务 读 取 到 
的 行 ， 在 事务 开始 之 前 未 被 删除 。 
只 有 符合 上 述 两 个 条 件 的 记录 ， 才 能 返回 作为 查询 结果 。 
INSERT 
InnoDB 为 新 插入 的 每 一 行 保存 当前 系统 版 本 号 作为 行 版 本 号 。 
DELETE 
InnoDB 为 删除 的 每 一 行 保存 当前 系统 版 本 号 作为 行 删除 标识 。 
UPDATE | | 
InnoDB 为 插入 一 行 新 记录 ， 保 存 当 前 系统 版 本 号 作为 行 版 本 号 ， 同 时 保存 当前 系统 
版 本 号 到 原来 的 行 作为 行 删 除 标识 。 | 


保存 这 两 个 额外 系统 版 本 号 ， 使 大 多 数 读 操作 都 可 以 不 用 加 锁 。 这 样 设计 使 得 读数 据 操 
作 很 简单 ， 性 能 很 好 ， 并 且 也 能 保证 只 会 读 取 到 符合 标准 的 行 。 不 足 之 处 是 每 行 记录 都 
需要 额外 的 存储 空间 ， 需 要 做 更 多 的 行 检查 工作 ， 以 及 一 些 额 外 的 维护 工作 。 

MVCC 只 在 REPEATABLE READ 和 READ COMMITTED 两 个 隔离 级 别 下 工作 。 其 他 两 个 隔离 
级 别 都 和 MVCC 不 兼容 六 4, 因为 READ UNCOMMITTED 总 是 读 取 最 新 的 数据 行 , 而 不 是 符合 
当前 事务 版 本 的 数据 行 。 而 SERIALIZABLE 则 会 对 所 有 读 取 的 行 都 加 锁 。 


1.5 MySQL 的 存储 引擎 


本 节 只 是 概要 地 描述 MySQL 的 存储 引擎 ， 而 不 会 涉及 太 多 细节 。 因 为 关于 存储 引擎 的 
讨论 及 其 相关 特性 将 会 贯穿 全 书 ， 而 且 本 书 也 不 是 存储 引擎 的 完全 指南 ， 所 以 有 必要 阅 


注 4: ”MVCC 并 没有 正式 的 规范 ， 所 以 各 个 存储 引 学 和 数据 库 系统 的 实现 都 是 各 异 的 ， 没 有 人 能 说 其 他 
的 实现 方式 是 错误 的 。 
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读 相 关 存 储 引擎 的 官方 文档 。 


在 文件 系统 中 ，MySQL 将 每 个 数据 库 (也 可 以 称 之 为 schema) 保存 为 数据 目录 下 的 一 
个 子 目 录 。 创 建 表 时 ，MySQL 会 在 数据 库 子 目录 下 创建 一 个 和 表 同 名 的 frm 文件 保存 
表 的 定义 。 例 如 创建 一 个 名 为 MyTable 的 表 ，MySQL 会 在 MyTable.frm 文件 中 保存 该 表 
的 定义 。 因 为 MySQL 使 用 文件 系统 的 目录 和 文件 来 保存 数据 库 和 表 的 定义 ， 大 小 写 敏 
感性 和 具体 的 平台 密切 相关 。 在 Windows 中 ， 大 小 写 是 不 敏感 的 ， 而 在 类 Unix 中 则 是 
敏感 的 。 不 同 的 存储 引擎 保存 数据 和 索引 的 方式 是 不 同 的 ， 但 表 的 定义 则 是 在 MySQL 
服务 层 统一 处 理 的 。 


可 以 使 用 SHOW TABLE STATUS 命令 (在 MySQL 5.0 以 后 的 版 本 中 ， 也 可 以 查询 
INFORMATION SCHEMA 中 对 应 的 表 ) 显示 表 的 相关 人 信息。 例如， 对 于 mysal 数据 库 中 的 


User 表 : 


mysql> SHOW TABLE STATUS LIKE ‘user’ \G 
pooo kkk q OW oook kk 


Name: 
Engine: 
Row_format: 


user 
MyISAM 
Dynamic 


Rows: 6 


Avg_row_length: 
Data_length: 
Max_data_length: 
Index_length: 
Data_free: 
Auto_increment: 
Create_time: 
Update_time: 
Check_time: 
Collation: 
Checksum: 
Create_options: 
Comment : 


59 

356 
4294967295 
2048 


0 

NULL 

2002-01-24 18:07:17 
2002-01-24 21:56:29 
NULL 

utf8 bin 

NULL 


Users and global privileges 


1 row in set (0.00 sec) 


输出 的 结果 表明 ， 这 是 一 个 MyISAM 表 。 输 出 中 还 有 很 多 其 他 信息 以 及 统计 信息 。 下 面 
简单 介绍 一 下 每 一 行 的 含义 。 


Name 
表 名 。 
Engine 
表 的 存储 引擎 类 型 。 在 旧版 本 中 ,该 列 的 名 字 叫 Type， 而 不 是 Engine, 
Row format 
行 的 格式 。 对 于 MyISAM 表 ， 可 选 的 值 为 Dynamic、Fixed 或 者 Compressed。 
Dynamic 的 行 长 度 是 可 变 的 ， 一 般 包含 可 变 长 度 的 字段 ， 如 VARCHAR 或 BLOB。Fixed 
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的 行 长 度 则 是 固定 的 ， 只 包含 固定 长 度 的 列 ， 如 CHAR 和 INTEGER, Compressed 的 行 
则 只 在 压缩 表 中 存在 ， 请 参考 第 19 页 “MyISAM 压缩 表 ” 一 节 。 
Rows 
表 中 的 行 数 。 对 于 MyISAM 和 其 他 一 些 存储 引擎 ， 该 值 是 精确 的 ， 但 对 于 InnoDB, 
该 值 是 估计 值 。 
Avg row length 
FBT Aa + TR, 
Data length 
表 数 据 的 大 小 〈 以 字 节 为 单位 )。 
Max_ data Length 
表 数 据 的 最 大 容量 ， 该 值 和 存储 引擎 有 关 。 
Index length 
索引 的 大 小 〈 以 字 节 为 单位 )。 
Data free 
对 于 MyISAM 表 ， 表 示 已 分 配 但 目前 没有 使 用 的 空间 。 这 部 分 空间 包括 了 之 前 删除 
的 行 ， 以 及 后 续 可 以 被 INSERT 利用 到 的 空间 。 
Auto increment 
下 一 个 AUTO INCREMENT 的 值 。 
Create time 
表 的 创建 时 间 。 
Update time 
表 数 据 的 最 后 修改 时 间 。 
Check_time 
使 用 CKECK TABLE 命令 或 者 myisamchk 工具 最 后 一 次 检查 表 的 时 间 。 
Collation 
表 的 默认 字符 集 和 字符 列 排序 规则 。 
Checksum 
如 果 局 用 ， 保 存 的 是 整个 表 的 实时 校 验 和 。 
Create options 
创建 表 时 指定 的 其 他 选项 。 
Comment 
该 列 包 含 了 一 些 其 他 的 额外 信息 。 对 于 MyISAM K, 保存 的 是 表 在 创建 时 带 的 注释 。 
对 于 InnoDB 表 ， 则 保存 的 是 InnoDB 表 空 间 的 剩余 空间 信息 。 如 果 是 一 个 视图 ， 则 
该 列 包含 “VIEW” 的 文本 字样 。 a 
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1.5.1 InnoDB 存储 引擎 


InnoDB 是 MySQL 的 默认 事务 型 引擎 ， 也 是 最 重要 、 使 用 最 广泛 的 存储 引擎 。 它 被 设计 
用 来 处 理 大 量 的 短期 (short-lived) 事务 ， 短 期 事务 大 部 分 情况 是 正常 提交 的 ， 很 少 会 
被 回 深 。InnoDB 的 性 能 和 自动 崩溃 恢复 特性 ， 使 得 它 在 非 事务 型 存储 的 需求 中 也 很 流 
行 。 除 非 有 非常 特别 的 原因 需要 使 用 其 他 的 存储 引 警 ， 否 则 应 该 优先 考虑 InnoDB 引擎 。 
如 果 要 学 习 存 储 引 获 ，InnoDB 也 是 一 个 非常 好 的 值得 花 最 多 的 时 间 去 深入 学 习 的 对 象 ， 
收益 肯定 比 将 时 间 平 均 花 在 每 个 存储 引擎 的 学 习 上 要 高 得 多 。 


InnoDB 的 历史 


InnoDB 有 着 复杂 的 发 布 历史 ， 了 解 一 下 这 段 历史 对 于 理解 InnoDB 很 有 帮助 。2008 年 ， 
发 布 了 所 谓 的 InnoDB plugin， 适 用 于 MySQL 5.1 版 本 ,但 这 是 Oracle 创建 的 下 一 代 
InnoDB 引擎， 其 拥有 者 是 InnoDB 而 不 是 MySQL。 这 基于 很 多 原因 ， 这 些 原因 如 果 要 
一 一 道 来 ， 恐 怕 得 喝 掉 好 几 桶 啤酒 。MySQL 默认 还 是 选择 了 集成 旧 的 InnoDB 引擎 。 当 
然 用 户 可 以 自行 选择 使 用 新 的 性 能 更 好 、 扩 展 性 更 佳 的 InnoDB plugin 来 覆盖 旧 的 版 本 。 
直到 最 后 ， 在 Oracle 收购 了 Sun 公司 后 发 布 的 MySQL 5.5 中 才 彻 底 使 用 InnoDB plugin 
替代 了 旧版 本 的 InnoDB (是 的 ， 这 也 意味 着 InnoDB plugin 已 经 是 原生 编译 了 ， 而 不 是 
编译 成 一 个 插件 ， 但 名 字 已 经 约定 俗 成 很 难 更 改 )。 


这 个 现代 的 InnoDB 版 本 , 也 就 是 MySQL 5.1 中 所 谓 的 InnoDB plugin, 支持 一 些 新 特性 ， 
诸如 利用 排序 创建 索引 (building index by sorting)、 删 除 或 者 增加 索引 时 不 需要 复制 全 
表 数 据 、 新 的 支持 压缩 的 存储 格式 、 新 的 大 型 列 值 如 BLOB 的 存储 方式 ， 以 及 文件 格式 管 
理 等 。 很 多 用 户 在 MySQL 5.1 中 没有 使 用 InnoDB plugin, 或 许 是 因为 他 们 没有 注意 到 
有 这 个 区 别 。 所 以 如 果 你 使 用 的 是 MySQL 5.1， 一 定 要 使 用 InnoDB plugin， 真 的 比 旧 
版 本 的 InnoDB 要 好 很 多 。 


InnoDB 是 一 个 很 重要 的 存储 引擎 ， 很 多 个 人 和 公司 都 对 其 贡献 代码 ， 而 不 仅仅 是 
Oracle 公司 的 开发 团队 。 一 些 重 要 的 贡献 者 包括 Google, Yasufumi Kinoshita, Percona, 
Facebook 等 ,他们 的 一 些 改进 被 直接 移植 到 官方 版 本 ,也 有 一 些 由 InnoDB 团队 重新 实现 。 
在 过 去 的 几 年 间 , InnoDB 的 改进 速度 大 大 加 快 , 主要 的 改进 集中 在 可 测量 性 、 可 扩展 性 、 
可 配置 化 、 性 能 、 各 种 新 特性 和 对 Windows 的 支持 等 方面 。MySQL 5.6 实验 室 预览 版 
和 里 程 碑 版 也 包含 了 一 系列 重要 的 InnoDB 新 特性 。 


为 改善 InnoDB 的 性 能 ，Oracle 投入 了 大 量 的 资源 ， 并 做 了 很 多 卓有成效 的 工作 (外 部 
贡献 者 对 此 也 提供 了 很 大 的 帮助 )。 在 本 书 的 第 二 版 中 ， 我 们 注意 到 在 超过 四 核 CPU 的 
系统 中 InnoDB 表现 不 佳 , 而 现在 已 经 可 以 很 好 地 扩展 至 24 核 的 系统 ,甚至 在 某 些 场景 ， 
32 核 或 者 更 多 核 的 系统 中 也 表现 良好 。 很 多 改进 将 在 即将 发 布 的 MySQL 5.6 中 引入 ， 
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当然 也 还 有 机 会 做 更 进一步 的 改善 。 


‘InnoDB 概览 

InnoDB 的 数据 存储 在 表 空 间 (tablespace) 中 ， 表 空间 是 由 InnoDB 管理 的 一 个 黑 盒 子 ， 
由 一 系列 的 数据 文件 组 成 。 在 MySQL 4.1 以 后 的 版 本 中 ，InnoDB 可 以 将 每 个 表 的 数据 
和 索引 存放 在 单独 的 文件 中 。InnoDB 也 可 以 使 用 裸 设备 作为 表 空 间 的 存储 介质 ， 但 现 
代 的 文件 系统 使 得 裸 设备 不 再 是 必要 的 选择 。 


InnoDB 采用 MVCC 来 支持 高 并 发 ， 并 且 实 现 了 四 个 标准 的 隔离 级 别 。 其 默认 级 别 是 
REPEATABLE READ (可 重复 读 ) ,并 且 通 过 间隙 锁 (next-key locking) 策略 防止 幻 读 的 出 现 。 
间隙 锁 使 得 InnoDB 不 仅仅 锁定 查询 涉及 的 行 ， 还 会 对 索引 中 的 间隙 进行 锁定 ， 以 防止 
幻影 行 的 插入 。 £ 


InnoDB 表 是 基于 聚 徐 索引 建立 的 ， 我 们 会 在 后 面 的 章节 详细 讨论 育 答 索引。InnoDB 的 
索引 结构 和 MySQL 的 其 他 存储 引擎 有 很 大 的 不 同 ， 聚 徐 索 引 对 主键 查询 有 很 高 的 性 能 。 
不 过 它 的 二 级 索引 (secondary index， 非 主键 索引 ) 中 必须 包含 主键 列 ， 所 以 如 果 主 刍 
列 很 大 的 话 ， 其 他 的 所 有 索引 都 会 很 大 。 因 此 ， 若 表 上 的 索引 较 多 的 话 ， 主 键 应 当 尽 可 
能 的 小 。InnoDB 的 存储 格式 是 平台 独立 的 ， 也 就 是 说 可 以 将 数据 和 索引 文件 从 Intel 平 
台 复 制 到 PowerPC 或 者 Sun SPARC 平台 。 


InnoDB 内 部 做 了 很 多 优化 ， 包 括 从 磁盘 读 取 数 据 时 采用 的 可 预测 性 预 读 ， 能 够 自动 在 
内 存 中 创建 hash 索引 以 加 速 读 操作 的 自 适 应 哈 希 索引 (adaptive hash index), RRE 
加 速 插入 操作 的 插入 缓冲 区 (insert buffer) 等 。 本 书后 面 将 更 详细 地 讨论 这 些 内 容 。 


InnoDB 的 行为 是 非常 复杂 的 ， 不 容易 理解 。 如 果 使 用 了 InnoDB 5 引擎， 笔者 强烈 建议 阅 
读 官方 手册 中 的 “InnoDB 事务 模型 和 锁 ” 一 节 。 如 果 应 用 程序 基于 InnoDB 构建 ， 则 事 
先 了 解 一 下 InnoDB 的 MVCC 架构 带 来 的 一 些微 妙 和 细节 之 处 是 非常 有 必要 的 。 存 储 引 
擎 要 为 所 有 用 户 甚至 包括 修改 数据 的 用 户 维持 一 致 性 的 视图 ， 是 非常 复杂 的 工作 。 


作为 事务 型 的 存储 引擎 ，InnoDB 通过 一 些 机 制 和 工具 支持 真正 的 热 备 份 ，Oracle 提供 
HY MySQL Enterprise Backup、Percona 提供 的 开源 的 XtraBackup 都 可 以 做 到 这 一 点 。 
MySQL 的 其 他 存储 引擎 不 支持 热 备 份 ， 要 获取 一 致 性 视图 需要 停止 对 所 有 表 的 写 入 ， 
而 在 读 写 混合 场景 中 ， 停 止 写 人 可 能 也 意味 着 停止 读 取 。 


1.5.2 MyISAM 存储 引擎 


Æ MySQL 5.1 及 之 前 的 版 本 ，MyISAM 是 默认 的 存储 引擎 。MyISAM 提供 了 大 量 的 特 
性 ， 包 括 全 文 索引 、 压 缩 、 空 间 函 数 (GIS) 等 ， 但 MyISAM 不 支持 事务 和 行 级 锁 ， 而 
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且 有 一 个 毫 无 疑问 的 缺陷 就 是 崩溃 后 无 法 安全 恢复 。 正 是 由 于 MyISAM 引 警 的 缘故 ， 即 
使 MySQL 支持 事务 已 经 很 长 时 间 了 ， 在 很 多 人 的 概念 中 MySQL 还 是 非 事 务 型 的 数据 
E. RE MyISAM 引擎 不 支持 事务 、 不 支持 崩溃 后 的 安全 恢复 ， 但 它 绝 不 是 一 无 是 处 
的 。 对 于 只 读 的 数据 ， 或 者 表 比 较 小 、 可 以 忍受 修复 (repair) 操作 ， 则 依然 可 以 继续 使 
用 MyISAM (但 请 不 要 默认 使 用 MyISAM， 而 是 应 当 默 认 使 用 InnoDB), 


存储 

MyISAM 会 将 表 存 储 在 两 个 文件 中 : 数据 文件 和 索引 文件 ， 分 别 以 .MY7D 和 .MYI 为 扩 
展 名 。MyISAM 表 可 以 包含 动态 或 者 静态 (KEHE) 行 。MySQL 会 根据 表 的 定义 来 
决定 采用 何 种 行 格式 。MyISAM 表 可 以 存储 的 行 记 录 数 ， 一 般 受 限于 可 用 的 磁盘 空间 ， 
或 者 操作 系统 中 单个 文件 的 最 大 尺寸 。 | 


TE MySQL 5.0, MyISAM 表 如 果 是 变 长 行 ， 则 默认 配置 只 能 处 理 256TB 的 数据 ， 因 


.为 指向 数据 记录 的 指针 长 度 是 6 个 字 节 。 而 在 更 早 的 版 本 中 ， 指 针 长 度 默认 是 4 字 


节 ， 所 以 只 能 处 理 4GB 的 数据 。 而 所 有 的 MySQL 版 本 都 支持 8 字 节 的 指针 。 要 改变 
MyISAM 表 指 针 的 长 度 〈 调 高 或 者 调 低 ) ， 可 以 通过 修改 表 的 MAX_ROWS 和 AVG_ROW_ 
LENGTH 选项 的 值 来 实现 ， 两 者 相 乘 就 是 表 可 能 达到 的 最 大 大 小 。 修 改 这 两 个 参数 会 导致 
重建 整个 表 和 表 的 所 有 索引 ， 这 可 能 需要 很 长 的 时 间 才 能 完成 。 


MyISAM 特性 


作为 MySQL 最 早 的 存储 引擎 之 一 ，MyISAM 有 一 些 已 经 开发 出 来 很 多 年 的 特性 ， 可 以 
满足 用 户 的 实际 需求 。 


加 锁 与 并 发 
MyISAM 对 整 张 表 加 锁 ， 而 不 是 针对 行 。 读 取 时 会 对 需要 读 到 的 所 有 表 加 共享 锁 ， 
写 入 时 则 对 表 加 排他 锁 。 但 是 在 表 有 读 取 查询 的 同时 ， 也 可 以 往 表 中 插入 新 的 记录 
(这 被 称 为 并 发 插入 ，CONCURRENT INSERT). 

修复 
XF MyISAM R, MySQL 可 以 手工 或 者 自动 执行 检查 和 修复 操作 ， 但 这 里 说 的 修 
复 和 事务 恢复 以 及 崩溃 恢复 是 不 同 的 概念 。 执 行 表 的 修复 可 能 导致 一 些 数据 丢失 ， 
而 且 修 复 操作 是 非常 慢 的 。 可 以 通过 CHECK TABLE mytable 检查 表 的 错误 ， 如 果 有 
错误 可 以 通过 执行 REPAIR TABLE mytable 进行 修复 。 另 外 ， 如 果 MySQL 服务 器 已 
经 关闭 ， 也 可 以 通过 myisamchk 命令 行 工 具 进 行 检 查 和 修复 操作 。 

索引 特性 
对 于 MyISAM 表 ， 即 使 是 BLOB 和 TEXT 等 长 字段 ， 也 可 以 基于 其 前 500 个 字符 创建 
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索引 。MyISAM 也 支持 全 文 索引 ， 这 是 一 种 基于 分 词 创建 的 索引 ， 可 以 支持 复杂 的 
查询 。 关 于 索引 的 更 多 信息 请 参考 第 5 章 。 
延迟 更 新 索引 键 (Delayed Key Write) 

创建 MyISAM 表 的 时 候 ， 如 果 指 定 了 DELAY KEY WRITE 选项 ， 在 每 次 修改 执行 完成 
时 , 不 会 立刻 将 修改 的 索引 数据 写 和 磁盘， 而 是 会 写 到 内 存 中 的 键 缓冲 区 (in-memory 
key buffer)， 只 有 在 清理 键 缓冲 区 或 者 关闭 表 的 时 候 才 会 将 对 应 的 索引 块 写 入 到 磁 
盘 。 这 种 方式 可 以 极 大 地 提升 写 入 性 能 ,但 是 在 数据 库 或 者 主机 月 涡 时 会 造成 索引 
损坏 ， 需 要 执行 修复 操作 。 延 迟 更 新 索引 键 的 特性 ， 可 以 在 全 局 设置 ， 也 可 以 为 单 
个 表 设 置 。 


MyISAM 压缩 表 


如 果 表 在 创建 并 导入 数据 以 后 ， 不 会 再 进行 修改 操作 ， 那 么 这 样 的 表 或 许 适 合 采 用 - 


MyISAM 压缩 表 。 


可 以 使 用 myisampack 对 MyISAM 表 进 行 压 缩 (也 叫 打 包 pack) 。 压 缩 表 是 不 能 进行 修 
改 的 (除非 先 将 表 解 除 压缩 ， 修 改 数据 ， 然 后 再 次 压缩 )。 压 缩 表 可 以 极 大 地 减少 磁盘 
空间 占用 ， 因 此 也 可 以 减少 磁盘 IO， 从 而 提升 查询 性 能 。 压 缩 表 也 支持 索引 ， 但 索引 
也 是 只 读 的 。 


以 现在 的 硬件 能 力 ， 对 大 多 数 应 用 场景 ， 读 取 压 缩 表 数据 时 的 解压 带 来 的 开销 影响 并 不 
大 ， 而 减少 IO 带 来 的 好 处 则 要 大 得 多 。 压 缩 时 表 中 的 记录 是 独立 压缩 的 ， 所 以 读 取 单 
行 的 时 候 不 需要 去 解压 整个 表 (其 至 也 不 解压 行 所 在 的 整个 页 面 )。 


MyISAM 性 能 

MyISAM 引擎 设 计 简单 ， 数 据 以 紧密 格式 存储 ， 所 以 在 某 些 场景 下 的 性 能 很 好 。 
MyISAM 有 一 些 服务 句 级 别 的 性 能 扩展 限制 ， 比 如 对 索引 键 缓 冲 区 (key cache) 的 
Mutex 锁 ， MariaDB 基于 段 (segment) 的 索引 键 缓冲 区 机 制 来 避免 该 问题 。 但 MyISAM 
最 典型 的 性 能 问题 还 是 表 锁 的 问题 ,如果 你 发 现 所 有 的 查询 都 长 期 处 于 “Locked” 状 态 ， 
那么 之 无 疑问 表 锁 就 是 罪魁 祸首 。 


1.5.3 MySQL 内 建 的 其 他 存储 引擎 
MySQL 还 有 一 些 有 特殊 用 途 的 存储 引擎 。 在 新 版 本 中 ， 有 些 可 能 因为 一 些 原因 已 经 不 
再 支持 ; 另外 还 有 些 会 继续 支持 ， 但 是 需要 明确 地 启用 后 才能 使 用 。 


Archive 引擎 
Archive 存储 引擎 只 支持 INSERT 和 SELECT 操作 ， 在 MySQL 5.1 之 前 也 不 支持 索引 。 
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Archive 引擎 会 缓存 所 有 的 写 并 利用 zlib 对 插入 的 行进 行 压缩 ， 所 以 比 MyISAM 表 的 磁 
盘 1/0 更 少 。 但 是 每 次 SELECT 查询 都 需要 执行 全 表 扫 描 。 所 以 Archive 表 适 合 日 志和 
数据 采集 类 应 用 ， 这 类 应 用 做 数据 分 析 时 往往 需要 全 表 扫 描 。 或 者 在 一 些 需要 更 快速 的 
INSERT 操作 的 场合 下 也 可 以 使 用 。 


Archive 引擎 支持 行 级 锁 和 专用 的 缓冲 区 ， 所 以 可 以 实现 高 并 发 的 插入 。 在 一 个 查询 开 
始 直到 返回 表 中 存在 的 所 有 行 数 之 前 ，Archive 引擎 会 阻止 其 他 的 SELECT 执行 ， 以 实现 
一 致 性 读 。 另 外 ， 也 实现 了 批量 插入 在 完成 之 前 对 读 操 作 是 不 可 见 的 。 这 种 机 制 模仿 了 
事务 和 MVCC 的 一 些 特 性 ， 但 Archive 引擎 不 是 一 个 事务 型 的 引擎 ， 而 是 一 个 针对 高 速 
插入 和 压缩 做 了 优化 的 简单 引擎 。 


Blackhole 引擎 

Blackhole 引擎 没有 实现 任何 的 存储 机 制 ， 它 会 丢弃 所 有 播 入 的 数据 ， 不 做 任何 保存 。 但 
是 服务 器 会 记录 Blackhole 表 的 日 志 ， 所 以 可 以 用 于 复制 数据 到 备 库 ， 或 者 只 是 简单 地 
记录 到 日 志 。 这 种 特殊 的 存储 引擎 可 以 在 一 些 特 殊 的 复制 架构 和 日 志 审 核 时 发 挥 作 用 。 
但 这 种 应 用 方式 我 们 磁 到 过 很 多 问题 ， 因 此 并 不 推荐 。 


CSV 引擎 


-CSV 引擎 可 以 将 普通 的 CSV 文件 〈 喜 号 分 割 值 的 文件 ) 作为 MySQL 的 表 来 处 理 ， 但 


这 种 表 不 支持 索引 。CSV 引擎 可 以 在 数据 库 运 行 时 找 入 或 者 提出 文件 。 可 以 将 Excel 
等 电子 表格 软件 中 的 数据 存储 为 CSV 文件 ， 然 后 复制 到 MySQL 数据 目录 下 ， 就 能 在 
MySQL 中 打开 使 用 。 同 样 ， 如 果 将 数据 写 人 到 一 个 CSV 引擎 表 ， 其 他 的 外 部 程序 也 能 
立即 从 表 的 数据 文件 中 读 取 CSV 格式 的 数据 。 因 此 CSV 引擎 可 以 作为 一 种 数据 交换 的 
机 制 ， 非 常 有 用 。 


Federated 引擎 


_ Federated 引擎 是 访问 其 他 MySQL 服务 器 的 一 个 代理 ， 它 会 创建 一 个 到 远程 MySQL 服 


务 器 的 客户 端 连 接 ， 并 将 查询 传输 到 远程 服务 器 执行 ， 然 后 提取 或 者 发 送 需要 的 数据 。 
最 初 设计 该 存储 引擎 是 为 了 和 企业 级 数据 库 如 Microsoft SQL Server 和 Oracle 的 类 似 特 
性 竞争 的 ， 可 以 说 更 多 的 是 一 种 市 场 行为 。 尽 管 该 引擎 看 起 来 提供 了 一 种 很 好 的 跨 服务 
器 的 灵活 性 ， 但 也 经 常 带 来 问题 ， 因 此 默认 是 禁用 的 。MariaDB 使 用 了 它 的 一 个 后 续 改 
进 版 本 ， 叫 做 FederatedX。 


Memory 引擎 
如 果 需 要 快速 地 访问 数据 ， 并 且 这 些 数据 不 会 被 修改 ， 重 启 以 后 丢失 也 没有 关系 ， 那 么 
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使 用 Memory # (以 前 也 叫做 HEAP R) 是 非常 有 用 的 。Memory 表 至 少 比 MyISAM 表 
要 快 一 个 数量 级 ， 因 为 所 有 的 数据 都 保存 在 内 存 中 ， 不 需要 进行 磁盘 VO. Memory 表 的 
结构 在 重启 以 后 还 会 保留 ， 但 数据 会 丢失 。 


Memroy 表 在 很 多 场景 可 以 发 挥 好 的 作用 : 


。 用 于 查找 (lookup) 或 者 映射 (mapping) 表 ， 例 如 将 邮编 和 州 名 映射 的 表 。 
© 用 于 缓存 周期 性 聚合 数据 (periodically aggregated data) 的 结果 。 
° 用 于 保存 数据 分 析 中 产生 的 中 间 数 据 。 


Memory 表 支 持 Hash 索引 ， 因 此 查找 操作 非常 快 。 虽 然 Memory 表 的 速度 非常 快 ， 但 还 
是 无 法 取代 传统 的 基于 磁盘 的 表 。Memroy 表 是 表 级 锁 ， 因 此 并 发 写 入 的 性 能 较 低 。 它 
不 支持 BLOB 或 TEXT 类 型 的 列 ， 并 且 每 行 的 长 度 是 固定 的 ， 所 以 即使 指定 了 VARCHAR 列 ， 
实际 存储 时 也 会 转换 成 CHAR， 这 可 能 导致 部 分 内 存 的 浪费 (其 中 一 些 限制 在 Percona 版 
本 已 经 解决 )。 


如 果 MySQL 在 执行 查询 的 过 程 中 需要 使 用 临时 表 来 保存 中 间 结 果 ， 内 部 使 用 的 临时 表 
”就 是 Memory 表 。 如 果 中 间 结 果 太 大 超出 了 Memory 表 的 限制 ， 或 者 含有 BLOB 或 TEXT 
字段 ， 则 临时 表 会 转换 成 MyISAM 表 。 在 后 续 的 章节 还 会 继续 讨论 该 问题 。 


A 3, 
A 


人 们 经 常 混淆 Memory 表 和 临时 表 。 临 时 表 是 指使 用 CREATE TEMPORARY TABLE 语句 
、 创 建 的 表 ， 它 可 以 使 用 任何 存储 引擎 ， 因 此 和 Memory 表 不 是 一 回 事 。 临 时 表 只 在 
3， 单 个 连接 中 可 见 ， 当 连接 断 开 时 ， 临 时 表 也 将 不 复 存在 。 






Merge 引擎 

Merge 引擎 是 MyISAM 引擎 的 一 个 变种 。Merge 表 是 由 多 个 MyISAM 表 合 并 而 来 的 虚 
拟 表 。 如 果 将 MySQL 用 于 日 志 或 者 数据 仓库 类 应 用 ， 该 引擎 可 以 发 挥 作 用 。 但 是 引入 
分 区 功能 后 ， 该 引擎 已 经 被 放弃 (参考 第 7 章 )。 


NDB 集群 引擎 

2003 年 ， 当 时 的 MySQL AB 公司 从 索尼 爱立信 公司 收购 了 NDB 数据 库 ， 然 后 开发 了 
NDB 集群 存储 引擎 ， 作 为 SQL 和 NDB 原生 协议 之 间 的 接口 。MySQL 服务 器 、NDB 集 
群 存储 引擎， 以 及 分 布 式 的 、share-nothing 的 、 容 灾 的 、 高 可 用 的 NDB 数据 库 的 组 合 ， 
被 称 为 MySQL 集群 (MySQL Cluster) 。 本 书后 续 会 有 章节 专门 来 讨论 MySQL 集群 。 
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1.5.4 第 三 方 存储 引擎 


MySQL 从 2007 年 开始 提供 了 插件 式 的 存储 引擎 API， 从 此 涌 出 了 一 系列 为 不 同 目的 而 
设计 的 存储 引擎 。 其 中 有 一 些 已 经 合并 到 MySQL 服务器， 但 大 多 数 还 是 第 三 方 产品 或 
者 开源 项 目 。 下 面 探 讨 一 些 我 们 认为 在 它 设计 的 场景 中 确实 很 有 用 的 第 三 方 存储 引擎 。 


OLTP 类 引擎 

Percona 的 XtraDB 存储 引擎 是 基于 InnoDB 引擎 的 一 个 改进 版 本 ， 已 经 包含 在 Percona 
Server 和 MariaDB 中 ， 它 的 改进 点 主要 集中 在 性 能 、 可 测量 性 和 操作 灵活 性 方面 。 
”XtraDB 可 以 作为 InnoDB 的 一 个 完全 的 替代 产品 ， 甚 至 可 以 兼容 地 读 写 InnoDB 的 数据 
文件 ， 并 支持 InnoDB 的 所 有 查询 。 


另外 还 有 一 些 和 InnoDB 非常 类 似 的 OLTP 类 存储 引擎 ， 比 如 都 支持 ACID 事务 和 
MVCC。 其 中 一 个 就 是 PBXT， 由 了 Paul McCullagh 和 Primebase GMBH 开 发 。 它 支持 
引擎 级 别 的 复制 、 外 键 约束 ， 并 且 以 一 种 比较 复杂 的 架构 对 固态 存储 (SSD) BETS 
当 的 支持 ， 还 对 较 大 的 值 类 型 如 BLOB 也 做 了 优化 。PBXT 是 一 款 社 区 支持 的 存储 引擎 ， 
MariaDB 包含 了 该 引擎。 


TokuDB 引 获 使 用 了 一 种 新 的 叫做 分 形 树 (Fractal Trees) 的 索引 数据 结构 。 该 结构 是 缓 
存 无 关 的 ， 因 此 即使 其 大 小 超过 内 存 性 能 也 不 会 下 降 ， 也 就 没有 内 存 生 命 周期 和 碎片 的 
问题 。TokuDB 是 一 种 大 数据 (Big Data) 存储 引擎 ， 因 为 其 拥有 很 高 的 压缩 比 ， 可 以 在 
很 大 的 数据 量 上 创建 大 量 索 引 。 在 本 书写 作 时 ， 这 个 引擎 还 处 于 早期 的 生产 版 本 状态 ， 
在 并 发 性 方面 还 有 很 多 明显 的 限制 。 目 前 其 最 适合 在 需要 大 量 插入 数据 的 分 析 型 数据 集 
的 场景 中 使 用 ， 不 过 这 些 限制 可 能 在 后 续 版 本 中 解决 掉 。 


RethinkDB 最 初 是 为 固态 存储 (SSD) 而 设计 的 ， 然 而 随 着 时 间 的 推移 ， 目 前 看 起 来 和 
最 初 的 目标 有 一 定 的 差 跑 。 该 引擎 比较 特别 的 地 方 在 于 采用 了 一 种 只 能 追加 的 写 时 复制 
B 树 (append-only copyon-write B-Tree) 作 为 索引 的 数据 结构 。 目 前 还 处 于 早期 开发 状态 ， 
我 们 还 设 有 测试 评估 过 ， 也 没有 听 说 有 实际 的 应 用 案例 。 


在 Sun 收购 MySQL AB 以 后 ，Falcon 存储 引擎 曾 经 作为 下 一 代 存 储 引 警 被 寄予 期 望 ， 但 
现在 该 项 目 已 经 被 取消 很 入 了 。Falcon 的 主要 设计 者 Jim Starkey 创立 了 一 家 新 公司 ， 主 
要 做 可 以 支持 云 计 算 的 NewSQL 数据 库 产 品 ， 叫 做 NuoDB (之 前 岂 NimbusDB ) 。 


面 同 列 的 存储 引擎 
MySQL 默认 是 面向 行 的 ， 每 一 行 的 数据 是 一 起 存储 的 ， 服 务 器 的 查询 也 是 以 行为 单位 
处 理 的 。 而 在 大 数据 量 处 理 时 ， 面 向 列 的 方式 可 能 效率 更 高 。 如 采 不 需要 整 行 的 数据 ， 
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面向 列 的 方式 可 以 传输 更 少 的 数据 。 如 果 每 一 列 都 单独 存储 ， 那 么 压缩 的 效率 也 会 更 高 。 


Infobright 是 最 有 名 的 面向 列 的 存储 引擎 。 在 非常 大 的 数据 量 ( 数 十 TB) 时 ， 该 引擎 工 
作 良 好 。Infobright 是 为 数据 分 析 和 数据 仓库 应 用 设计 的 。 数 据 高 度 压 缩 ， 按 照 块 进行 排 
序 ， 每 个 块 都 对 应 有 一 组 元 数据 。 在 处 理 查 询 时 ,访问 元 数据 可 决定 跳 过 该 块 ， 其 至 可 
能 只 需要 元 数据 即 可 满足 查询 的 需求 。 但 该 引擎 不 支持 索引 ， 不 过 在 这 么 大 的 数据 量 级 ， 
即使 有 索引 也 很 难 发 挥 作用 ， 而 且 块 结构 也 是 一 种 准 索 引 (quasi-index)。Infobright 需 
要 对 MySQL 服务 器 做 定制 ， 因 为 一 些 地 方 需要 修改 以 适应 面向 列 存 储 的 需要 。 如 果 查 
询 无 法 在 存储 层 使 用 面向 列 的 模式 执行 ， 则 需要 在 服务 器 层 转 换 成 按 行 处 理 ， 这 个 过 程 
会 很 慢 。Infobright 有 社区 版 和 商业 版 两 个 版 本 。 


另外 一 个 面向 列 的 存储 引 敬 是 Calpont 公司 的 InfiniDB ， 也 有 社区 版 和 商业 版 。InfiniDB 
可 以 在 一 组 机 器 集群 间 做 分 布 式 查询 ， 但 目前 还 没有 生产 环境 的 应 用 案例 。 


顺便 提 一 下 ， 在 MySQL 之 外 ， 如 果 有 面向 列 的 存储 的 需求 ， 我 们 也 评估 过 LucidDB 和 
MonetDB, 在 我 们 的 MySQL 性 能 博客 ”上 有 相应 的 性 能 测试 数据 ,或 许 随 着 时 间 的 推移 ， 
这 些 数据 慢 慢 会 过 期 ， 但 依然 可 以 作为 参考 。 


社区 存储 引擎 

如 果 要 列举 社区 提供 的 所 有 存储 引擎 ， 可 能 会 有 两 位 数 ， 甚 至 三 位 数 。 但 是 负责 任 地 说 ， 
其 中 大 部 分 影响 力 有 限 ， 很 多 可 能 都 没有 听 说 过 ,或 者 只 有 极 少 人 在 使 用 。 在 这 里 列举 
了 一 些 ， 也 大 都 没有 在 生产 环境 中 应 用 过 ， 慎 用 ， 后 果 自 负 。 


Aria 
之 前 的 名 字 是 Maria, Æ MySQL 创建 者 计划 用 来 蔡 代 MyISAM BY — 51 E, 
MariaDB 包含 了 该 引擎 ， 之 前 计划 开发 的 很 多 特性 ， 有 些 因 为 在 MariaDB 服务 器 层 
实现 ， 所 以 引擎 层 就 取消 了 。 在 本 书写 作 之 际 ， 可 以 说 Aria EHR T MKS KK 
复 问 题 的 MyISAM， 当 然 也 还 有 一 些 特性 是 MyISAM 不 具备 的 ， 比 如 数据 的 缓存 
(MyISAM 只 能 缓存 索引 )。 | 


Groonga 
这 是 一 款 全 文 索引 引擎 ， 号 称 可 以 提供 准确 而 高 效 的 全 文 索 5|。 
OQGraph 


该 引擎 由 Open Query 研发 ， 支 持 图 操作 〈 比 如 查找 两 点 之 间 的 最 短路 径 ) FA SQL 
很 难 实现 该 类 操作 。 

O4M 
该 引擎 在 MySQL 内 部 实现 了 队列 操作 ， 而 用 SQL 很 难 在 一 个 语句 实现 这 类 队列 


注 5:  mysqlperformanceblog.com, ——i## iz 
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操作。 

SphinxSE 
该 引擎 为 Sphinx 全 文 索引 搜索 服务 器 提供 了 SQL 接口 ， 在 附录 下 中 将 做 进一步 的 
详细 讨论 。 

Spider 
该 引擎 可 以 将 数据 切 分 成 不 同 的 分 区 ， 比 较 高 效 透 明 地 实现 了 分 片 (shard)， 并 且 
可 以 针对 分 片 执行 并 行 查询 (分 片 可 以 分 布 在 不 同 的 服务 器 上 )。 

VPForMySQL 
该 引擎 支持 垂直 分 区 ， 通 过 一 系列 的 代理 存储 引擎 实现 。 垂 直 分 区 指 的 是 可 以 将 表 
分 成 不 同 列 的 组 合 ， 并 且 单 独 存 储 。 但 对 查询 来 说 ， 看 到 的 还 是 一 张 表 。 该 引擎 和 
Spider 的 作者 是 同一 人 。 


1.5.5 选择 合适 的 引擎 

这 么 多 存储 引擎 ， 我 们 怎么 选择 ?大 部 分 情况 下 ，InnoDB 都 是 正确 的 选择 ， 所 以 Oracle 
在 MySQL 5.5 版 本 时 终于 将 InnoDB 作为 默认 的 存储 引 敬 了 。 对 于 如 何 选 择 存储 引擎 ， 
可 以 简单 地 归纳 为 一 句 话 :“ 除 非 需 要 用 到 某 些 InnoDB 不 具备 的 特性 ， 并 且 没 有 其 他 办 
法 可 以 替代 ， 否 则 都 应 该 优先 选择 InnoDB 引擎 ”"。 例 如 ， 如 果 要 用 到 全 文 索 引 ， 建 议 优 
先 考 虑 InnoDB 加 上 Sphinx 的 组 合 ， 而 不 是 使 用 支持 全 文 索引 的 MyISAM。 当 然 ， 如 果 
不 需要 用 到 InnoDB 的 特性 ， 同 时 其 他 引擎 的 特性 能 够 更 好 地 满足 需求 ， 也 可 以 考虑 一 
下 其 他 存储 引 警 。 举 个 例子 ， 如 果 不 在 乎 可 扩展 能 力 和 并 发 能 力 ， 也 不 在 乎 崩溃 后 的 数 
据 丢失 问题 ， 却 对 InnoDB 的 空间 占用 过 多 比较 敏感 ， 这 种 场合 下 选择 MyISAM 就 比较 


合适 。 


除非 万 不 得 已 ， 否 则 建议 不 要 混合 使 用 多 种 存储 引擎 ， 否 则 可 能 带 来 一 系列 复杂 的 问题 ， 
DRS EN bug 和 边界 问题 。 存 储 引 获 层 和 服务 器 层 的 交互 已 经 比较 复杂 ， 更 不 用 
说 混合 多 个 存储 引擎 了 。 至 少 ,混合 存储 对 一 致 性 备份 和 服务 器 参数 配置 都 带 来 了 一 些 
困难 。 
如 果 应 用 需要 不 同 的 存储 引擎 ， 请 先 考 虑 以 下 几 个 因素 。 
事务 
如 果 应 用 需要 事务 支持 ， 那 么 InnoDB (或 者 XtraDB) 是 目前 最 稳定 并 且 经 过 验证 
的 选择 。 如 果 不 需 要 事务 ， 并 且 主 要 是 SELECT INSERT HE, IA MyISAM 是 不 
错 的 选择 。 一 般 日 志 型 的 应 用 比较 符合 这 一 特性 。 
备份 
备份 的 需求 也 会 影响 存储 引 警 的 选择 。 如 果 可 以 定期 地 关闭 服务 器 来 执行 备份 ， 那 
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么 备份 的 因素 可 以 忽略 。 反 之 ， 如 果 需 要 在 线 热 备 份 ， 那 么 选择 InnoDB 就 是 基本 
RRL 

数据 量 比较 大 的 时 候 , 系统 崩溃 后 如 何 快速 地 恢复 是 一 个 需要 考虑 的 问题 ,相对 而 言 ， 

MyISAM 崩溃 后 发 生 损坏 的 概率 比 InnoDB 要 高 很 多 ， 而 且 恢 复 速度 也 要 慢 。 因 此 ， 

即使 不 需要 事务 支持 ， 很 多 人 也 选择 InnoDB 引擎 ， 这 是 一 个 非常 重要 的 因素 。 
特有 的 特性 

最 后 ， 有 些 应 用 可 能 依赖 一 些 存储 引 苟 所 独 有 的 特性 或 者 优化 ， 比 如 很 多 应 用 依赖 

Ree SIL. Bb, MySQL 中 也 只 有 MyISAM 支持 地 理 空间 搜索 。 如 果 一 个 

存储 引擎 拥有 一 些 关键 的 特性 ， 同 时 却 又 缺乏 一 些 必要 的 特性 ， 那 么 有 时候 不 得 不 

做 折 中 的 考虑 ， 或 者 在 架构 设计 上 做 一 些 取 舍 。 某 些 存储 引擎 无 法 直接 支持 的 特性 ， 

有 时 候 通 过 变通 也 可 以 满足 需求 。 


你 不 需要 现在 就 做 决定 。 本 书 接 下 来 会 提供 很 多 关于 各 种 存储 引擎 优 缺 点 的 详细 描述 ， 

会 讨论 一 些 架构 设计 的 技巧 。 一 般 来 说 ， 可 能 有 很 多 选项 你 还 没有 意识 到 ， 等 阅读 完 
本 书 回头 再 来 看 这 个 问题 可 能 更 有 帮助 些 。 如 果 无 法 确定 ， 那 么 就 使 用 InnoDB， 这 个 
默认 选项 是 安全 的 ， 尤 其 是 搞 不 清楚 具体 需要 什么 的 时 候 。 


如 果 不 了 解 具 体 的 应 用 ， 上 面 提 到 的 这 些 概念 都 是 比较 抽象 的 。 所 以 接 下 来 会 讨论 一 些 
常见 的 应 用 场景 ， 在 这 些 场景 中 会 涉及 很 多 的 表 ， 以 及 这 些 表 如 何 选 用 合适 的 存储 引擎 ， 
下 一 节 将 进行 一 些 总 结 o 


日 志 型 应 用 

假设 你 需要 实时 地 记录 一 台中 心 电 话 交 换 机 的 每 一 通电 话 的 日 志 到 MySQL 中 ， 或 者 通 
过 Apache 的 mod_log_sql 模块 将 网 站 的 所 有 访问 信息 直接 记录 到 表 中 。 这 一 类 应 用 的 插 
入 速度 有 很 高 的 要 求 ， 数 据 库 不 能 成 为 瓶颈 。MyISAM 或 者 Archive 存储 引擎 对 这 类 应 
用 比较 合适 ， 因 为 它们 开销 低 ， 而 且 插 入 速度 非常 快 。 


如 果 需 要 对 记录 的 日 志 做 分 析 报 表 ， 则 事情 就 会 变 得 有 趣 了 。 生 成 报表 的 SQL 很 有 可 能 
会 导致 插入 效率 明显 降低 ， 这 时 候 该 怎么 办 ? | 


一 种 解决 方法 ， 是 利用 MySQL 内 置 的 复制 方案 将 数据 复制 一 份 到 备 库 ， 然 后 在 备 库 上 
执行 比较 消耗 时 间 和 CPU 的 查询 。 这 样 主 库 只 用 于 高 效 的 插入 工作 ， 而 备 库 上 执行 的 碍 


询 也 无 须 担心 影响 到 日 志 的 插入 性 能 。 当 然 也 可 以 在 系统 负载 较 低 的 时 候 执行 报表 查询 


操作 ， 但 应 用 在 不 断 变化 ， 如 果 依 赖 这 个 策略 可 能 以 后 会 导致 问题 。 
另外 一 种 方法 ， 在 日 志 记 录 表 的 名 字 中 包含 年 和 月 的 信息 ， 比 如 web_ Logs_2012 01 或 者 
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web_logs_2012_ jan。 这 样 可 以 在 已 经 没有 插入 操作 的 历史 表 上 做 频繁 的 查询 操作 ， 而 不 
会 干扰 到 最 新 的 当前 表 上 的 插入 操作 。 


只 读 或 者 大 部 分 情况 下 只 读 的 表 

有 些 表 的 数据 用 于 编制 类 目 或 者 分 列 清单 (如 工作 岗位 、 竞 拍 、 不 动产 等 )， 这 种 应 用 
场景 是 典型 的 读 多 写 少 的 业务 。 如 果 不 介 意 MyISAM 的 崩溃 恢复 问题 ， 选 用 MyISAM 
引 警 是 合适 的 。 不 过 不 要 低估 骨 误 恢复 问题 的 重要 性 ， 有 些 存储 引擎 不 会 保证 将 数据 安 
全 地 写 入 到 磁盘 中 ， 而 许多 用 户 实际 上 并 不 清楚 这 样 有 多 大 的 风险 (MyISAM 只 将 数据 
写 到 内 存 中 ， 然 后 等 待 操 作 系 统 定期 将 数据 刷 出 到 磁盘 上 )。 





as 一 个 值得 推荐 的 方式 ， 是 在 性 能 测试 环境 模拟 真实 的 环境 ， 运 行 应 用 ， 然 后 拔 下 电 
人 AS 4 。 源 模拟 崩溃 测试 。 对 崩溃 恢复 的 第 一 手 测试 经 验 是 无 价 之 宝 ， 可 以 避免 真 的 碰 到 前 
US 省 时 手足 无 措 。 


不 要 轻易 相信 “MyISAM 比 InnoDB 快 ” 之 类 的 经 验 之 谈 ， 这 个 结论 往往 不 是 绝对 的 。 
在 很 多 我 们 已 知 的 场景 中 ，InnoDB 的 速度 都 可 以 让 MyISAM 望尘莫及 ， 尤 其 是 使 用 到 
聚 徐 索引 ， 或 者 需要 访问 的 数据 都 可 以 放 和 内存 的 应 用 。 在 本 书后 续 章 节 ， 读 者 可 以 了 
. 解 更 多 影响 存储 引擎 性 能 的 因素 (如 数据 大 小 、I/O 请 求 量 、 主 键 还 是 二 级 索引 等 ) 以 
及 这 些 因素 对 应 用 的 影响 。 


当 设计 上 述 类 型 的 应 用 时 ， 建 议 采 用 InnoDB。MyISAM 引擎 在 一 开始 可 能 没有 任何 问 
题 ， 但 随 着 应 用 压力 的 上 升 ， 则 可 能 迅速 恶化 。 各 种 锁 争 用 、 崩 溃 后 的 数据 丢失 等 问题 
都 会 随 之 而 来 。 


订单 处 理 

如 采 涉 及 订单 处 理 ， 那 么 支持 事务 就 是 必要 选项 。 半 完成 的 订单 是 无 法 用 来 吸引 用 户 的 。 
男 外 一 个 重要 的 考虑 扩 是 存储 引擎 对 外 键 的 支持 情况 。InnoDB 是 订单 处 理 类 应 用 的 最 
佳 选 择 。 


电子 公告 牌 和 主题 讨论 论坛 

对 于 MySQL 用 户 ， 主 题 讨论 区 是 个 很 有 意思 的 话题 。 当 前 有 成 百 上 千 的 基于 PHP 或 者 
Perl 的 免费 系统 可 以 支持 主题 讨论 。 其 中 大 部 分 的 数据 库 操作 效率 都 不 高 ， 因 为 它们 大 
多 倾 问 于 在 一 次 请 求 中 执行 尽 可 能 多 的 查询 语句 。 另 外 还 有 部 分 系统 设计 为 不 采用 数据 
库 ， 当 然 也 就 无 法 利用 到 数据 库 提 供 的 一 些 方便 的 特性 。 主 题 讨论 区 一 般 都 有 更 新 计数 
器 ,并 且 会 为 各 个 主题 计算 访问 统计 信息 。 多 数 应 用 只 设计 了 几 张 表 来 保存 所 有 的 数据 ， 
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所 以 核心 表 的 读 写 压力 可 能 非常 大 。 为 保证 这 些 核心 表 的 数据 一 致 性 ， 锁 成 为 资源 争 
用 的 主要 因素 。 


尽管 有 这 些 设计 缺陷 ， 但 大 多 数 应 用 在 中 低 负载 时 可 以 工作 得 很 好 。 如 采 Web 站 后 的 规 
模 迅 速 扩展 ， 流 量 随 之 猛 增 ， 则 数据 库 访 问 可 能 变 得 非常 慢 。 此 时 一 个 典型 的 解决 方案 
是 更 改 为 支持 更 高 读 写 的 存储 引擎 ,但 有 时 用 户 会 发 现 这 么 做 反而 导致 系统 变 得 更 慢 了 。 


用 户 可 能 没有 意识 到 这 是 由 于 某 些 特殊 查询 的 缘故 ， 典 型 的 如 : 
mysql> SELECT COUNT(*) FROM table; 


问题 就 在 于 ， 不 是 所 有 的 存储 引 敬 运行 上 述 查 询 都 非常 快 : 对 于 MyISAM 确实 会 很 快 ， 
但 其 他 的 可 能 都 不 行 。 每 种 存储 引擎 都 能 找 出 类 似 的 对 自己 有 利 的 例子 。 下 一 章 将 帮助 
用 户 分 析 这 些 状况 ， 演 示 如 何 发 现 和 解决 存在 的 这 类 问题 。 


CD-ROM 应 用 

如 果 要 发 布 一 个 基于 CD-ROM 或 者 DVD-ROM 并 且 使 用 MySQL 数据 文件 的 应 用 ， 可 
以 考虑 使 用 MyISAM 表 或 者 MyISAM 压缩 表 ， 这 样 表 之 间 可 以 隔离 并 且 可 以 在 不 同 介 
质 上 相互 拷贝 。MyISAM 压缩 表 比 未 压缩 的 表 要 节约 很 多 空间 ， 但 压缩 表 是 只 读 的 。 在 
某 些 应 用 中 这 可 能 是 个 大 问题 。 但 如 果 数 据 放 到 只 读 介质 的 场景 下 ， 压 缩 表 的 只 读 特 性 
就 不 是 问题 ， 就 没有 理由 不 采用 压缩 表 了 。 


大 数据 量 

什么 样 的 数据 量 算 大 ?我 们 创建 或 者 管理 的 很 多 InnoDB 数据 库 的 数据 量 在 3 ~ 5TB 之 
间 ， 或 者 更 大 ， 这 是 单 台 机 器 上 的 量 ， 不 是 一 个 分 片 (shard) 的 量 。 这 些 系统 运行 得 还 
不 错 ， 要 做 到 这 一 点 需要 合理 地 选择 硬件 ， 做 好 物理 设计 ， 并 为 服务 器 的 1/O 瓶颈 做 好 
规划 。 在 这 样 的 数据 量 下 ， 如 果 采 用 MyISAM， 有 崩溃 后 的 恢复 就 是 一 个 亚 梦 。 


如 果 数 据 量 继续 增长 到 10TB 以 上 的 级 别 ， 可 能 就 需要 建立 数据 仓库 。Infobright 是 
MySQL 数据 仓库 最 成 功 的 解决 方案 。 也 有 一 些 大 数据 库 不 适合 Infobright， 却 可 能 适合 
TokuDB, 


1.5.6 转换 表 的 引擎 


有 很 多 种 方法 可 以 将 表 的 存储 引擎 转换 成 另外 一 种 引擎 。 每 种 方法 都 有 其 优点 和 缺点 。 
在 接 下 来 的 章节 中 ， 我 们 将 讲述 其 中 的 三 种 方法 。 
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ALTER TABLE 


将 表 从 一 个 引擎 修改 为 另 一 个 引擎 最 简单 的 办 法 是 使 用 ALTER TABLE 语句 。 下 面 的 语句 
将 mytable 的 引擎 修改 为 InnoDB : 


mysql> ALTER TABLE mytable ENGINE = InnoDB; 


上 述 语法 可 以 适用 任何 存储 引擎 。 但 有 一 个 问题 : 需要 执行 很 长 时 间 。MySQL 会 按 行 
将 数据 从 原 表 复制 到 一 张 新 的 表 中 ， 在 复制 期 间 可 能 会 消耗 系统 所 有 的 I/O 能 力 ， 同 时 
原 表 上 会 加 上 读 锁 。 所 以 ， 在 繁忙 的 表 上 执行 此 操作 要 特别 小 心 。 一 个 替代 方案 是 采用 
接 下 来 将 讨论 的 导出 与 导入 的 方法 ， 手 工 进行 表 的 复制 。 


如 果 转 换 表 的 存储 引擎 ， 将 会 失去 和 原 引 擎 相关 的 所 有 特性 。 例 如 ， 如 果 将 一 张 InnoDB 
表 转 换 为 MyISAM， 然 后 再 转换 回 InnoDB, JR InnoDB 表 上 所 有 的 外 键 将 丢失 。 


导出 与 导入 

为 了 更 好 地 控制 转换 的 过 程 ， 可 以 使 用 mysqldump 工具 将 数据 导出 到 文件 ， 然 后 修改 文 
件 中 CREATE TABLE 语句 的 存储 引擎 选项 ， 注 意 同时 修改 表 名 ， 因 为 同一 个 数据 库 中 不 能 
存在 相同 的 表 名 ， 即 使 它们 使 用 的 是 不 同 的 存储 引擎 。 同 时 要 注意 mysqldump 默认 会 自 
动 在 CREATE TABLE 语句 前 加 上 DROP TABLE 语句 ， 不 注意 这 一 点 可 能 会 导致 数据 丢失 。 


创建 与 查询 (CREATE 和 SELECT) 
第 三 种 转换 的 技术 综合 了 第 一 种 方法 的 高 效 和 第 二 种 方法 的 安全 。 不 需要 导出 整个 表 的 
数据 ， 而 是 先 创 建 一 个 新 的 存储 引擎 的 表 ， 然 后 利用 INSERT…SELECT 语法 来 导数 据 : 

mysql> CREATE TABLE innodb table LIKE myisam_table; 

mysql> ALTER TABLE innodb table ENGINE=InnoDB; 

mysql> INSERT INTO innodb table SELECT * FROM myisam_table; 
数据 量 不 大 的 话 ， 这 样 做 工作 得 很 好 。 如 果 数 据 量 很 大 ， 则 可 以 考虑 做 分 批 处 理 ， 针 对 
每 一 段 数据 执行 事务 提交 操作 ， 以 避免 大 事务 产生 过 多 的 undo。 假 设 有 主键 字段 id, 
重复 运行 以 下 语句 (最 小 值 x 和 最 大 值 y 进行 相应 的 替换 ) 将 数据 导入 到 新 表 : 

mysql> START TRANSACTION; 

mysql> INSERT INTO innodb table SELECT * FROM myisam table 

-> WHERE id BETWEEN x AND y; 

mysql> COMMIT; 
这 样 操作 完成 以 后 ， 新 表 是 原 表 的 一 个 全 量 复制 ， 原 表 还 在 ， 如 果 需 要 可 以 删除 原 表 。 
如 果 有 必要 ， 可 以 在 执行 的 过 程 中 对 原 表 加 锁 ， 以 确保 新 表 和 原 表 的 数据 一 致 。 


Percona Toolkit 提供 了 一 个 pt-online-schema-change 的 工具 (基于 Facebook 的 在 线 
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schema 变更 技术 ) ， 可 以 比较 简单 、 方 便 地 执行 上 述 过 程 ， 避 免 手 工 操作 可 能 导致 的 失 
误 和 烦琐 。 


1.6 MySQL 时 间 线 (Timeline) 


在 选择 MySQL 版 本 的 时 候 ， 了 解 一 下 版 本 的 变迁 历史 是 有 帮助 的 。 对 于 怀旧 者 也 可 以 
享受 一 下 过 去 的 好 日 子 里 是 怎么 使 用 MySQL 的 。 | 


版 本 3.23 (2001) 
一 般 认 为 这 个 版 本 的 发 布 是 MySQL 真正 “诞生 ”的 时 刻 ， 其 开始 获得 广泛 使 用 。 
在 这 个 版 本 ，MySQL 依然 只 是 一 个 在 平面 文件 (Flat File) 上 实现 了 SQL 查询 的 系 
统 。 但 一 个 重要 的 改进 是 引入 MyISAM 代替 了 老 旧 而 且 有 诸多 限制 的 ISAM 引擎。 
InnoDB 引擎 也 已 经 可 以 使 用 , 但 没有 包含 在 默认 的 二 进 制 发 行 版 中 , 因为 它 太 新 了 。 
所 以 如 果 要 使 用 InnoDB， 必 须 手 工 编译 。 版 本 3.23 还 引入 了 全 文 索 引 和 复制 。 复 
制 是 MySQL 成 为 互联 网 应 用 的 数据 库 系 统 的 关键 特性 (killer feature) 。 

版 本 4.0 (2003) 
支持 新 的 语法 ， 比 如 UNION 和 多 表 DELETE 语法 。 重 写 了 复制 ， 在 备 库 使 用 了 两 个 线 
程 来 实现 复制 ， 避 免 了 之 前 一 个 线程 做 所 有 复制 工作 的 模式 下 任务 切换 导致 的 问题 。 
InnoDB 成 为 标准 配备 ， 包 括 了 全 部 的 特性 : 行 级 锁 、 外 键 等 。 版 本 4.0 中 还 引入 了 
查询 缓存 ( 自 那 以 后 这 部 分 改动 不 大 )， 同 时 还 支持 通过 SSL 进行 连接 。 

版 本 4.1 (2005) 
引入 了 更 多 新 的 语法 ， 比 如 子 查询 和 INSERT ON DUPLICATE KEY UPDATE。 开 始 支持 
UTF-8 字符 集 。 支 持 新 的 二 进 制 协议 和 prepared 语句 。 

版 本 5.0 (2006) 
这 个 版 本 出 现 了 一 些 “ 企 业 级 ”特性 : 视图 、 触 发 器 、 存 储 过 程 和 存储 函数 。 老 的 
ISAM 引擎 的 代码 被 彻底 移 除 ， 同 时 引入 了 新 的 Federated 等 引擎 。 

版 本 5.1 (2008) 


这 是 Sun 收购 MySQL AB 以 后 发 布 的 首 个 版 本 ， 研 发 时 间 长 达 五 年 。 版 本 5.1 引 


入 了 分 区 、 基 于 行 的 复制 ， 以 及 plugin API (包括 可 播 拔 存储 引擎 的 API). BET 
BerkeyDB 引擎 ， 这 是 MySQL 最 早 的 事务 存储 引擎 。 其 他 如 Federated 引擎 也 将 被 
放弃 。 同 时 Oracle 收购 的 InnoDB Oy ™* 发 布 了 InnoDB plugin. 

版 本 5.5 (2010) 
O XÆ Oracle 收购 Sun 以 后 发 布 的 首 个 版 本 。 版 本 5.5 的 主要 改善 集中 在 性 能 、 
Fett, 复制 、 分 区 、 对 微软 Windows 系统 的 支持 ， 以 及 一 些 其 他 方面 。InnoDB 
成 为 默认 的 存储 引擎 。 更 多 的 一 些 遗 留 特性 和 不 建议 使 用 的 特性 被 移 除 。 增 加 了 


注 6: Oracle 也 已 经 收购 了 BerkeyDB. 
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PERFORMANCE SCHEMA 库 ， 包 含 了 一 些 可 测量 的 性 能 指标 的 增强 。 增 加 了 复制 、 认 证 
和 审计 API。 半 同步 复制 (semisynchronous replication) 插件 进入 实用 阶段 。Oracle 
还 在 2011 年 发 布 了 商用 的 认证 插件 和 线程 池 (thread pooling), InnoDB 在 架构 方面 
也 做 了 较 大 的 改进 ， 比 如 多 个 子 缓冲 池 (buffer pool)。. 

版 本 5.6 (还 未 发 布 ) 
版 本 5.6 将 包含 一 些 重大 更 新 。 比 如 多 年 来 首次 对 查询 优化 器 进行 大 规模 的 改进 ， 

更 多 的 插件 API (比如 全 文 索 引 ) ， 复 制 的 改进 ， 以 及 PERFORMANCE_SCHEMA 库 增加 

了 更 多 的 性 能 指标 。InnoDB 团队 也 做 了 大 量 的 改进 工作 ， 这 些 改进 在 已 经 发 布 的 里 
程 碑 版 本 和 实验 室 版 本 中 都 已 经 包括 。MySQL 5.5 主要 着 重 在 基础 部 分 的 改进 和 加 
强 ， 引 入 了 部 分 新 特性 。 而 MySQL 5.6 则 在 MySQL 5.5 的 基础 上 提升 服务 器 的 开 
发 和 性 能 。 

版 本 6.0 (已 经 取消 ) 
版 本 6.0 的 概念 有 些 模糊 。 最 早 在 版 本 5.1 还 在 开发 的 时 候 就 宣布 要 开发 版 本 6.0。 
传说 中 宣布 要 开发 的 6.0 拥有 大 量 的 新 特性 ， 包 括 在 线 备 份 、 服 务 器 层面 对 所 有 存 
储 引擎 的 外 键 支持 ， 以 及 子 查询 的 改进 和 线程 凶 。 后 来 该 版 本 号 被 取消 ，Sun 将 其 
改 为 版 本 5.4 继续 开发 ， 最 后 发 布 时 变 成 版 本 5.5。 版 本 6.0 中 很 多 特性 的 代码 陆续 
出 现在 版 本 5.5 和 5.6 中 。 


简单 总 结 一 下 MySQL 的 发 展 史 : 早期 的 MySQL 是 一 种 破坏 性 创新 和 "， 有 诸多 限制 ， 并 
且 很 多 功能 只 能 说 是 二 流 的 。 但 是 它 的 特性 支持 和 较 低 的 使 用 成 本 ， 使 得 其 成 为 快速 增 
长 的 互联 网 时 代 的 杀手 级 应 用 。 在 5.x 版 本 的 早期 ，MySQL 引入 了 视图 和 存储 过 程 等 特 
性 ， 期 望 成 为 “企业 级 ”数据 库 ， 但 并 不 算 成 功 ， 成 长 并 非 一 帆 风 顺 。 从 事后 分 析 来 看 ， 
MYSQL 5.0 充满 了 bug， 直 到 5.0.50 以 后 的 版 本 才 算 稳定 。 这 种 情况 在 MySQL 5.1 也 依 
然 没 有 太 多 改善 。 版 本 5.0 和 5.1 的 发 布 都 延期 了 许多 时 日 ， 而 且 Sun 和 Oracle 的 两 次 
收购 也 使 得 社区 人 士 有 所 担心 。 但 我 们 认为 事情 还 在 按部就班 地 发 展 ，MySQL 5.5 可 以 
说 是 MySQL 历史 上 质量 最 高 的 版 本 。Oracle 收购 以 后 帮助 MySQL 更 好 地 往 企业 级 应 
用 的 方向 发 展 ，MySQL 5.6 也 承诺 在 功能 和 性 能 方面 将 有 显著 提升 。 


提 到 性 能 ， 我 们 可 以 比较 一 下 在 不 同时 代 MySQL 的 性 能 测试 的 数据 。 在 目前 的 生产 环 
境 中 4.0 及 更 老 的 版 本 已 经 很 少见 了 ， 所 以 这 里 不 打算 测试 4.1 之 前 的 版 本 。 男 外 ， 如 
此 多 的 版 本 如 果 要 做 完全 等 同 的 测试 是 比较 困难 的 ， 有 具体 原因 将 在 后 面 的 章节 讨论 。 我 
们 尝试 设计 了 多 个 测试 方案 来 尽量 保证 在 不 同 版 本 中 的 基准 一 致 ， 并 为 此 做 了 很 多 努力 。 
表 1-2 显示 了 在 服务 器 层面 不 同 并 发 下 的 每 秒 事务 数 的 测试 结 采 。 


注 7 : “破坏 性 创新 ”一 词 出 自 Clayton M. Christensen 的 The Innovator’s Dilemma (Harper). 
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1-2; 多 个 不 同 MySQL 版 本 的 只 读 测试 
线程 数 。 MySQL MySQL ` MySQL MysQL5.1with MySQL MySQL 


Aq 50 5.1 InnoDBplugin 55 — 56 
1 686 640 596 594 531 526 
2 1307 1221 1140 1139 1077 1019 
4 2275 2168 2032 2043 1938 1831 
8 3879 3746 3606 . 3681 3523 3320 
16 4374 4527 4393 6131 5881 5573 
32 4591 4864 4698 7762 7549 7139 
64 4688 5078 4910 7536 7269 6994 


OT TT TT Ea Sted tne AAAA ma Aaa AOA RA PASA SER E ECE SEE na Paart e AeA Ag Saan acta ‘martasties teeters Papanta Pana Pnr Saa anr martin Saa tan ites PBe Peni taaan ena Ea PALARAN Aeae Tat mne Paname e Sey RE Sn na Heys ent SREE T e Paa es Pg, taa Aa PARRA Pana hartge Hehe eicrororne on 


注 a : 在 测试 的 时 候 ， 版 本 5.6 还 没有 GA (正式 发 布 ) 。 
很 容易 将 表 1-2 的 数据 以 图 的 方式 展示 出 来 ， 如 图 1-2 所 示 。 


— £B MySaQ_ 4.1 
fad MySQL 5.0 
器 MYSQL 5.1 

ua MYSQL 5.1 
with InnoDB 
Plugin 
Be MySQL 5.5 
vA MySQL 5.6 





每 秒 事 务 数 





1-2: MySQL 不 同 版 本 的 只 读 基准 测试 


在 解释 结果 之 前 ， 需 要 先 介绍 一 下 测试 环境 。 测 试 的 机 器 是 Cisco UCS C250, FAR 6 
核 CPU， 每 个 核 支 持 两 个 线程 ， 内 存 为 384GB， 测 试 的 数据 集 是 2.5GB， 所 以 MySQL 

的 buffer pool 设置 为 4GB。 采 用 SysBench 的 read-only 只 读 测 试 进行 压 测 ， 并 采用 
InnoDB 存储 引擎 ， 所 有 的 数据 都 可 以 放 入 内 存 ， 因 此 是 CPU 密集 型 (CPU-bound) 的 

测试 。 每 次 测试 持续 60 分 钟 , 每 10 秒 获取 一 次 吞吐 量 的 结 采 ,前面 900 秒 用 于 预 热 数据 ， 

以 避免 预 热 时 的 IO 影响 测试 结果 。 
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现在 来 看 看 结果 ， 有 两 个 很 明显 的 趋势 。 第 一 个 趋势 ， 采 用 了 InnoDB plugin 的 版 本 ， 
在 高 并 发 的 时 候 性 能 明显 更 好 ， 可 以 说 InnoDB plugin 的 扩展 性 更 好 。 这 是 可 以 预期 的 
结果 ， 旧 的 版 本 在 高 并 发 时 确实 存在 问题 。 第 二 个 趋势 ， 新 的 版 本 在 单线 程 的 时 候 性 能 
比 旧 版 本 更 差 。 一 开始 可 能 无 法 理解 为 什么 会 这 样 ， 仔 细 想 想 就 能 明白 ， 这 是 一 个 非常 
简单 的 只 读 测 试 。 新 版 本 的 SQL 语法 更 复杂 ， 针 对 复杂 查询 增加 了 很 多 特性 和 改进 ， 这 
对 于 简单 查询 可 能 带 来 了 更 多 的 开销 。 旧版 本 的 代码 简单 ,对 于 简单 的 查询 反而 会 更 有 利 。 


原 计划 做 一 个 更 复杂 的 不 同 并 发 条 件 下 的 读 写 混合 场景 的 测试 (类似 TPC-C) ， 但 要 在 
不 同 版 本 间 做 到 可 比较 基本 是 不 可 能 的 。 一 般 来 说 ， 新 版 本 在 复杂 场景 时 性 能 有 更 多 的 
优化 ， 龙 其 是 高 并 发 和 大 数据 集 的 情况 下 。 


那么 该 如 何 选 择 版 本 呢 ? 这 更 多 地 取决 于 业务 需求 而 不 是 技术 需求 。 理 想 情 况 下 当然 是 
版 本 越 新 越 好 ， 当 然 也 可 以 选择 等 到 第 一 个 bug 修复 版 本 以 后 再 采用 新 的 大 版 本 。 如 果 
应 用 还 没有 上 线 ， 也 可 以 采用 即将 发 布 的 新 版 本 ， 以 尽 可 能 地 延迟 应 用 上 线 后 的 升级 操 
作 。 


1.7 MySQL 的 开发 模式 


MySQL 的 开发 过 程 和 发 布 模型 在 不 同 的 阶段 有 很 大 的 变化 ， 但 目前 已 经 基本 稳定 下 来 。 
在 Oracle 定期 发 布 的 新 里 程 碑 开 发 版 本 中 ， 会 包含 即将 在 下 一 个 GA 版 本 发 布 的 新 特 
性 。 这 样 做 是 为 了 测试 和 获得 反馈 ， 请 不 要 在 生产 环境 使 用 此 版 本 ， 虽 然 Oracle 宣称 每 
个 里 程 碑 版 本 的 质量 都 是 可 靠 的 ， 并 随时 可 以 正式 发 布 (到 目前 为 止 也 没有 任何 理由 去 
推翻 这 个 说 法 )。Oracle 也 会 定期 发 布 实验 室 预览 版 ， 主 要 包含 一 些 特 定 的 需要 评估 的 
特性 ， 这 些 特性 并 不 保证 会 在 下 一 个 正式 版 本 中 包括 进去 。 最 终 ，Oracle 会 将 稳定 的 特 
性 打包 发 布 一 个 新 的 GA 版 本 。 


MySQL 依然 遵循 GPL 开源 协议 ， 全 部 的 源 代码 (除了 一 些 商 业 版 本 的 插件 ) 都 会 开放 
给 社区 。Oracle 似乎 也 理解 ， 为 社区 和 付费 用 户 提供 不 同 的 版 本 并 非 明 智之 举 。MySQL 
AB 曾经 尝试 过 不 同 版 本 的 策略 ， 结 果 导 致 付费 用 户 变 成 了 “有 睁 眼 瞎 ”"， 无 法 从 社区 的 测 
试 和 反馈 中 获得 好 处 。 不 同 版 本 的 策略 并 不 受 企业 用 户 的 欢迎 ， 所 以 后 来 被 Sun 废除 了 。 


现在 Oracle 为 付费 用 户 单独 提供 了 一 些 服务 器 插件 ， 而 MySQL 本 身 还 是 遵循 开源 模式 。 
尽管 对 于 私有 的 服务 器 插件 的 发 布 有 一 些 抱怨 ， 但 这 只 是 少数 的 声音 ， 并 且慢 慢 地 在 平 
息 。 大 多 数 MySQL 用 户 对 此 并 不 在 意 ， 有 需求 的 用 户 也 能 够 接受 商业 授权 的 付费 插件 。 


无 论 如 何 ， 不 开源 的 扩展 也 只 是 扩展 而 已 ， 并 不 会 将 MySQL 变 成 受 限 制 的 非 开 源 模式 .。 


注 8: GA (Generally Available) 的 意思 是 通常 可 用 的 版 本 ， 对 于 最 挑 别 的 老板 来 说 ， 这 种 版 本 也 意味 着 
达到 了 满足 生产 环境 中 使 用 的 质量 标准 。 
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没有 这 些 扩展 ，MySQL 也 是 功能 完整 的 数据 库 。 坦 白地 说 ， 我 们 也 很 欣赏 Oracle 将 更 
多 的 特性 做 成 插件 的 开发 模式 。 如 果 将 特性 直接 包含 在 服务 器 中 而 不 是 API 的 方式 ， 那 
就 更 加 没有 选择 了 : 用 户 只 能 接受 这 种 实现 ， 而 失去 了 选择 更 适合 业务 的 实现 的 机 会 。 
例如 ， 如 果 Oracle 将 InnoDB 的 全 文 索引 功能 以 API 的 方式 实现 ， 那 么 就 可 能 以 同样 的 
API 实现 Sphinx 或 者 Lucene 的 插件 ， 这 可 能 对 一 些 用 户 更 有 用 。 服 务 器 内 部 的 API 设 
计 也 很 干净 ， 这 对 于 提升 代码 质量 非常 有 帮助 ， 谁 不 想 要 这 个 呢 ? 


1.8 总 结 


MySQL 拥有 分 层 的 架构 。 上 层 是 服务 器 层 的 服务 和 查询 执行 引擎 ， 下 层 则 是 存储 引擎 。 
虽然 有 很 多 不 同 作用 的 插件 API， 但 存储 引擎 API 还 是 最 重要 的 。 如 果 能 理解 MySQL 
在 存储 引擎 和 服务 层 之 间 处 理 查询 时 如 何 通 过 API 来回 交互 ， 就 能 抓 住 MySQL 的 核心 
基础 架构 的 精髓 。 


MySQL 最 初 基于 ISAM 构建 (后 来 被 MyISAM 取代 )， 其 后 陆续 添加 了 更 多 的 存储 引 
擎 和 事务 支持 。MySQL 有 一 些 怪异 的 行为 是 由 于 历史 遗留 导致 的 。 例 如 ， 在 执行 ALTER 
TABLE F}, MySQL 提交 事务 的 方式 是 由 于 存储 引 警 的 架构 直接 导致 的 ， 并 且 数 据 字 典 也 
保存 在 .frm 文 件 中 (这 并 不 是 说 InnoDB 会 导致 ALTER 变 成 非 事务 型 的 .对 于 InnoDB 来 说 ， 
所 有 的 操作 都 是 事务 )。 


当然 ， 存 储 引擎 API 的 架构 也 有 一 些 缺 点 。 有 时 候选 择 多 并 非 好 事 ， 而 在 MySQL 5.0 和 
MySQL 5.1 中 有 太 多 的 存储 引擎 可 以 选择 。InnoDB 对 于 95% 以 上 的 用 户 来 说 都 是 最 佳 
选择 ， 所 以 其 他 的 存储 引擎 可 能 只 是 让 事情 变 得 复杂 难 搞 ， 当 然 也 不 可 否认 某 些 情况 下 
某 些 存储 引擎 能 更 好 地 满足 需求 。 


Oracle 一 开始 收购 了 InnoDB, ZELK T MySQL， 在 同一 个 屋檐 下 对 于 两 者 都 是 有 
FIRJ, InnoDB 和 MySQL 服务 器 之 间 可 以 更 快 地 协同 发 展 。MySQL 依然 基于 GPL 协议 
开放 全 部 源 代码 ， 社 区 和 客户 都 可 以 获得 坚固 而 稳定 的 数据 库 ，MySQL 正在 变 得 越 来 
越 可 扩展 和 有 用 。 





第 2 章 
MySQL 基 准 测试 


基准 测试 (benchmark) 是 MySQL 新 手 和 专家 都 需要 掌握 的 一 项 基本 技能 。 简 单 地 
说 ， 基 准 测试 是 针对 系统 设计 的 一 种 压力 测试 。 通 党 的 目标 是 为 了 和 擎 担 系 统 的 行为 。 
但 也 有 其 他 原因 ， 如 重 现 某 个 系统 状态 ， 或 者 是 做 新 硬件 的 可 靠 性 测试 。 本 章 将 讨论 
MySQL 和 基于 MySQL 的 应 用 的 基准 测试 的 重要 性 、 策 略 和 工具 。 我 们 将 特别 讨论 一 下 
sysbench， 这 是 一 款 非 常 优秀 的 MySQL 基准 测试 工具 。 


2.1 为 什么 需要 基准 测试 


为 什么 基准 测试 很 重要 ? 因为 基准 测试 是 唯一 方便 有 效 的 、 可 以 学 习 系 统 在 给 定 的 工作 
负载 下 会 发 生 什 么 的 方法 。 基 准 测试 可 以 观察 系统 在 不 同 压 力 下 的 行为 ， 评 佑 系统 的 容 
量 ， 掌 握 哪 些 是 重要 的 变化 ， 或 者 观察 系统 如 何 处 理 不 同 的 数据 。 基 准 测 试 可 以 在 系统 
实际 负载 之 外 创造 一 些 虚 构 场 景 进行 测 试 。 基 准 测 试 可 以 完成 以 下 工作 ， 或 者 更 多 : 


。 验证 基于 系统 的 一 些 假 设 ， 确 认 这 些 假设 是 否 符合 实际 情况 。 

© ” 重 现 系统 中 的 某 些 异 常 行为 ， 以 解决 这 些 异常 。 

© 测试 系统 当前 的 运行 情况 。 如 果 不 清 楚 系统 当前 的 性 能 ， 就 无 法 确认 某 些 优化 的 效 
果 如 何 。 也 可 以 利用 历史 的 基准 测试 结果 来 分 析 诊 断 一 些 无 法 预测 的 问题 。 

。 模拟 比 当 前 系统 更 高 的 负载 ， 以 找 出 系统 随 着 压力 增加 而 可 能 遇 到 的 扩展 性 瓶颈 

。 规划 未 来 的 业务 增长 。 基 准 测 试 可 以 评估 在 项 目 未 来 的 负载 下 ， 需 要 什么 样 的 硬件 ， 
需要 多 大 容量 的 网 络 ， 以 及 其 他 相关 资源 。 这 有 助 于 降低 系统 升级 和 重大 变更 的 
风险 。 

e 测试 应 用 适应 可 变 环境 的 能 力 。 例 如 ， 通 过 基准 测试 ， 可 以 发 现 系 统 在 随机 的 并 发 
峰值 下 的 性 能 表现 ， 或 者 是 不 同 配置 的 服务 器 之 间 的 性 能 表现 。 基 准 测试 也 可 以 测 
试 系统 对 不 同 数据 分 布 的 处 理 能 
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e 测试 不 同 的 硬件 、 软 件 和 操作 系统 配置 。 比 如 RAID 5 还 是 RAID 10 更 适合 当前 的 
系统 ? 如 果 系 统 从 ATA 硬盘 升级 到 SAN 存储 ， 对 于 随机 写 性 能 有 什么 帮助 ? Linux 
2.4 系 列 的 内 核 会 比 2.6 系 列 的 可 扩展 性 更 好 吗 ? 升级 MySQL 的 版 本 能 改善 性 能 吗 ? 
为 当前 的 数据 采用 不 同 的 存储 引擎 会 有 什么 效果 ? 所 有 这 类 问题 都 可 以 通过 专门 的 
基准 测试 来 获得 答案 。 

。 证明 新 采购 的 设备 是 否 配置 正确 。 笔 者 曾经 无 数 次 地 通过 基准 测试 来 对 新 系统 进行 
压 测 ， 发 现 了 很 多 错误 的 配置 ， 以 及 硬件 组 件 的 失效 等 问题 。 因 此 在 新 系统 正式 上 
线 到 生产 环境 之 前 进行 基准 测试 是 一 个 好 习惯 ， 永 远 不 要 相信 主机 提供 商 或 者 硬件 
供应 商 的 所 谓 系统 已 经 安装 好 ， 并 且 能 运行 多 快 的 说 法 。 如 果 可 能 ， 执 行 实际 的 基 
准 测 试 永远 是 一 个 好 主意 。 


基准 测试 还 可 以 用 于 其 他 目的 ， 比 如 为 应 用 创建 单元 测试 父 件 。 但 本 章 我 们 只 关注 与 性 
能 有 关 的 基准 测试 。 


基准 测试 的 一 个 主要 问题 在 于 其 不 是 真实 压力 的 测试 。 基 准 测试 施加 给 系统 的 压力 相对 
真实 压力 来 说 ,通常 比较 简单 。 真 实 压 力 是 不 可 预期 而 且 变 化 多 端的 ， 有 时 候 情 况 会 过 
于 复杂 而 难以 解释 。 所 以 使 用 真实 压力 测试 ， 可 能 难以 从 结果 中 分 析出 确切 的 结论 。 


基准 测试 的 压力 和 真实 压力 在 哪些 方面 不 同 ” 有 很 多 因素 会 影响 基准 测试 ， 比 如 数据 量 、 
数据 和 查询 的 分 布 ， 但 最 重要 的 一 点 还 是 基准 测试 通常 要 求 尽 可 能 快 地 执行 完成 ， 所 以 
经 常 给 系统 造成 过 大 的 压力 。 在 很 多 案例 中 ， 我 们 都 会 调整 给 测试 工具 的 最 大 压力 ， 以 
在 系统 可 以 容忍 的 压力 园 值 内 尽 可 能 快 地 执行 测试 ， 这 对 于 确定 系统 的 最 大 容量 非常 有 
帮助 。 然 而 大 部 分 压力 测试 工具 不 支持 对 压力 进行 复杂 的 控制 。 务 必要 记 住 ， 测 试 工具 
自身 的 局 限 也 会 影响 到 结果 的 有 效 性 。 


使 用 基准 测试 进行 容量 规划 也 要 掌握 技巧 ， 不 能 只 根据 测试 结果 做 简单 的 推断 。 例 如 ， 
假设 想 知道 使 用 新 数据 库 服务 器 后 ， 系 统 能 够 支撑 多 大 的 业务 增长 。 首 先 对 原 系 统 进行 
基准 测试 ， 然 后 对 新 系统 做 测试 ， 结 果 发 现 新 系统 可 以 支持 原 系统 40 倍 的 TPS (每 秒 
事务 数 ) ， 这 时 候 就 不 能 简单 地 推断 说 新 系统 一 定 可 以 支持 40 倍 的 业务 增长 。 这 是 因为 
在 业务 增长 的 同时 ， 系 统 的 流量 、 用 户 、 数 据 以 及 不 同 数据 之 间 的 交互 都 在 增长 ， 它 们 
不 可 能 都 有 40 倍 的 支撑 能 力 ， 尤 其 是 相互 之 间 的 关系 。 而 且 当 业务 增长 到 40 倍 时 ， 应 
用 本 身 的 设计 也 可 能 已 经 随 之 改变 。 可 能 有 更 多 的 新 特性 会 上 线 ， 其 中 某 些 特 性 可 能 
数据 库 造 成 的 压力 远大 于 原 有 功能 。 而 这 些 压力 、 数 据 、 关 系 和 特性 的 变化 都 很 难 模拟 ， 
所 以 它们 对 系统 的 影响 也 很 难 评估 。 


结论 就 是 ， 我 们 只 能 进行 大 概 的 测试 ， 来 确定 系统 大 致 的 余 量 有 多 少 。 当 然 也 可 以 做 一 
些 真实 压力 测试 《和 基准 测试 有 区 别 )， 但 在 构造 数据 集 和 压力 的 时 候 要 特别 小 心 ， 而 
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且 这 样 就 不 再 是 基准 测试 了 。 基 准 测 试 要 尽量 简单 直接 ， 结 果 之 间 容 易 相 互 比较 ， 成 本 
低 且 易于 执行 。 尽 管 有 诸多 限制 ， 基 准 测试 还 是 非常 有 用 的 《只 要 搞 清楚 测试 的 原理 ， 
并 且 了 解 如 何 分 析 结 果 所 代表 的 意义 )。 


2.2 基准 测试 的 策略 

基准 测试 有 两 种 主要 的 策略 : 一 是 针对 整个 系统 的 整体 测试 ， 另 外 是 单独 测试 MySQL, 
这 两 种 策略 也 被 称 为 集成 式 (full-stack) 以 及 单 组 件 式 (single-component) 基准 测试 。 
针对 整个 系统 做 集成 式 测试 ， 而 不 是 单独 测试 MySQL 的 原因 主要 有 以 下 几 点 : 


e 测试 整个 应 用 系统 ， 包 括 Web 服务 器 、 应 用 代码 、 网 络 和 数据 库 是 非常 有 用 的 ， 因 
为 用 户 关 注 的 并 不 仅仅 是 MySQL 本 身 的 性 能 ， 而 是 应 用 整体 的 性 能 。 

e MySQL 并 非 总 是 应 用 的 瓶颈 ， 通 过 整体 的 测试 可 以 揭示 这 一 点 。 

e。 只 有 对 应 用 做 整体 测试 ， 才 能 发 现 各 部 分 之 间 的 缓存 带 来 的 影响 。 

。 整体 应 用 的 集成 式 测试 更 能 揭示 应 用 的 真实 表现 ， 而 单独 组 件 的 测试 很 难 做 到 这 一 


另外 一 方面 ， 应 用 的 整体 基准 测试 很 难 建立 ， 甚 至 很 难 正 确 设置 。 如 果 基 准 测试 的 设计 
有 问题 ， 那 么 结果 就 无 法 反映 真实 的 情况 ， 从 而 基于 此 做 的 决策 也 就 可 能 是 错误 的 。 


不 过 ， 有 了 时候 不 需要 了 解 整 个 应 用 的 情况 ， 而 只 需要 关注 MySQL 的 性 能 ， 至 少 在 项 目 
初期 可 以 这 样 做 。 基 于 以 下 情况 ， 可 以 选择 只 测试 MySQL : 


。 需要 比较 不 同 的 schema 或 查询 的 性 能 。 

。 针对 应 用 中 某 个 具体 问题 的 测试 。 

e。 为 了 避免 滥 长 的 基准 测试 ， 可 以 通过 一 个 短期 的 基 淮 测试， 做 快速 的 “周期 循环 ”， 
来 检测 出 某 些 调整 后 的 效果 。 


另外 ， 如 果 能 够 在 真实 的 数据 集 上 执行 重复 的 查询 ， 那 么 针对 MySQL 的 基准 测试 也 是 
有 用 的 ， 但 是 数据 本 身 和 数据 集 的 大 小 都 应 该 是 真实 的 。 如 果 可 能 ， 可 以 采用 生产 环境 


不 幸 的 是 ， 设 置 一 个 基于 真实 数据 的 基准 测试 复杂 而 且 耗 时 。 如 果 能 得 到 一 份 生产 数据 
集 的 拷贝 ， 当 然 很 幸运 ， 但 这 通常 不 太 可 能 。 比 如 要 测试 的 是 一 个 刚 开 发 的 新 应 用 ， 它 
只 有 很 少 的 用 户 和 数据 。 如 果 想 测试 该 应 用 在 规模 扩张 到 很 大 以 后 的 性 能 表现 ， 就 只 能 
通过 模拟 大 量 的 数据 和 压力 来 进行 。 
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2.2.1 测试 何 种 指标 

在 开始 执行 甚至 是 在 设计 基准 测试 之 前 ， 需 要 先 明确 测试 的 目标 。 测 试 目标 决定 了 选择 
什么 样 的 测试 工具 和 技术 ， 以 获得 精确 而 有 意义 的 测试 结果 。 可 以 将 测试 目标 细 化 为 一 
系列 的 问题 ， 比 如 ,“ 这 种 CPU 是 否 比 另外 一 种 要 快 ? ”， 或 “新 索引 是 否 比 当前 索引 性 
能 更 好 ? ” | 


有 时 候 需 要 用 不 同 的 方法 测试 不 同 的 指标 。 比 如 ， 针 对 延迟 (latency) 和 吞吐 量 
(throughput) 就 需要 采用 不 同 的 测试 方法 。 


请 考虑 以 下 指标 ， 看 看 如 何 满足 测试 的 需求 。 


吞吐 量 
吞吐 量 指 的 是 单位 时 间 内 的 事务 处 理 数 。 这 一 直 是 经 典 的 数据 库 应 用 测试 指标 。 一 
些 标 准 的 基准 测试 被 广泛 地 引用 ， 如 TPC-C (参考 http://www.tpc.org), 而且 很 多 数 
据 库 厂商 都 努力 争取 在 这 些 测试 中 取得 好 成 绩 。 这 类 基准 测试 主要 针对 在 线 事 务 处 
Æ (OLTP) 的 吞吐 量 ， 非 常 适用 于 多 用 户 的 交互 式 应 用 。 常 用 的 测试 单位 是 每 秒 事 
务 数 (TPS)， 有 些 也 采用 每 分 钟 事务 数 (TPM ) 。 
响应 时 间或 者 延迟 
这 个 指标 用 于 测试 任务 所 需 的 整体 时 间 。 根 据 具体 的 应 用 ， 测 试 的 时 间 单 位 可 能 是 
微 种 、 毫 秒 、 秒 或 者 分 钟 。 根 据 不 同 的 时 间 单 位 可 以 计算 出 平均 响应 时 间 、 最 小 
响应 时 间 、 最 大 响应 时 间 和 所 占 百分比 。 最 大 响应 时 间 通 常 意义 不 大 ， 因 为 测试 时 
间 越 长 ， 最 大 响应 时 间 也 可 能 越 大 。 而 且 其 结果 通常 不 可 重复 ， 每 次 测试 都 可 能 得 
到 不 同 的 最 大 响应 时 间 。 因 此 ， 通 常 可 以 使 用 百分比 响应 时 间 (percentile response 
time) 来 替代 最 大 响应 时 间 。 人 例如， 如果 95% 的 响应 时 间 都 是 5 毫秒 ， 则 表示 任务 
在 95% 的 时 间 段 内 都 可 以 在 5 PZ ASE. 
使 用 图 表 有 助 于 理解 测试 结果 。 可 以 将 测试 结果 绘制 成 折线 图 (比如 平均 值 折 线 或 
者 95% 百分比 折线 ) 或 者 散 点 图 ， 直 观 地 表现 数据 结果 集 的 分 布 情况 。 通 过 这 些 图 
可 以 发 现 长 时 间 测 试 的 趋势 。 本 章 后 面 将 更 详细 地 讨论 这 一 点 。 
并 发 性 | 
并 发 性 是 一 个 非常 重要 又 经 常 被 误解 和 误 用 的 指标 。 例 如 ， 它 经 常 被 表示 成 多 少 用 
户 在 同一 时 间 浏 览 一 个 Web 站 点 , BEARER SPS’, Rin, HTTP 
协议 是 无 状态 的 ， 大 多 数 用 户 只 是 简单 地 读 取 浏览 器 上 显示 的 信息 ， 这 并 不 等 同 于 
Web 服务 器 的 并 发 性 。 而 且 ，Web 服务 器 的 并 发 性 也 不 等 同 于 数据 库 的 并 发 性 ， 而 
仅仅 只 表示 会 话 存 储 机 制 可 以 处 理 多 少数 据 的 能 力 。Web 服务 器 的 并 发 性 更 准确 的 
度量 指标 ， 应 该 是 在 任意 时 间 有 多 少 同时 发 生 的 并 发 请 求 。 


注 1: 特别 是 一 些 论 坛 软件 ， 已 经 让 很 多 管理 员 错 误 地 相信 同时 有 成 十 上 万 的 用 户 正 在 同时 访问 网 站 ， 
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在 应 用 的 不 同 环节 都 可 以 测量 相应 的 并 发 性 。Web 服务 器 的 高 并 发 ， 一 般 也 会 导 
致 数据 库 的 高 并 发 ， 但 服务 器 采用 的 语言 和 工具 集 对 此 都 会 有 影响 。 注 意 不 要 将 
创建 数据 库 连 接 和 并 发 性 搞 混 应 。 一 个 设计 良好 的 应 用 ， 同 时 可 以 打开 成 百 上 千 
A MySQL 数据 库 服 务 器 连接 ， 但 可 能 同时 只 有 少数 连接 在 执行 查询 。 所 以 说 ， 一 
个 Web 站 点 “同时 有 50 000 AA” 访问， 却 可 能 只 有 10 ~ 15 个 并 发 请 求 到 
MySQL 数据 库 。 
换 句 话说 ， 并 发 性 基准 测试 需要 关注 的 是 正在 工作 中 的 并 发 操作 ， 或 者 是 同时 工作 
中 的 线程 数 或 者 连接 数 。 当 并 发 性 增加 时 ， 需 要 测量 吞吐 量 是 否 下 降 ， 响 应 时 间 是 
否 变 长 ， 如 果 是 这 样 ， 应 用 可 能 就 无 法 处 理 峰 值 压 力 。 
并 发 性 的 测量 完全 不 同 于 响应 时 间 和 吞吐 量 。 它 不 像 是 一 个 结果 ， 而 更 像 是 设置 基 
准 测 试 的 一 种 属性 。 并 发 性 测试 通常 不 是 为 了 测试 应 用 能 达到 的 并 发 度 ， 而 是 为 了 
测试 应 用 在 不 同 并 发 下 的 性 能 。 当 然 ， 数 据 库 的 并 发 性 还 是 需要 测量 的 。 可 以 通过 
sysbench 指定 32、64 或 者 128 个 线程 的 测试 ， 然 后 在 测试 期 间 记 录 MySQL 数据 库 
的 Threads_running 状态 值 。 在 第 11 章 将 讨论 这 个 指标 对 容量 规划 的 影响 。 

可 扩展 性 
在 系统 的 业务 压力 可 能 发 生变 化 的 情况 下 ， 测 试 可 扩展 性 就 非常 必要 了 。 第 11 章 将 
更 进一步 讨论 可 扩展 性 的 话题 。 简 单 地 说 ， 可 扩展 性 指 的 是 ， 给 系统 增加 一 倍 的 工 
作 ， 在 理想 情况 下 就 能 获得 两 倍 的 结果 ( 即 吞吐 量 增 加 一 倍 ) 。 或 者 说 ， 给 系统 增加 
一 倍 的 资源 〈 比 如 两 倍 的 CPU 数 )， 就 可 以 获得 两 倍 的 吞吐 量 。 当 然 , 同时 性 能 ( 响 
应 时 间 ) 也 必须 在 可 以 接受 的 范围 内 。 大 多 数 系统 是 无 法 做 到 如 此 理想 的 线性 扩展 的 。 
随 着 压力 的 变化 ， 吞 吐 量 和 性 能 都 可 能 越 来 越 差 。 
可 扩展 性 指标 对 于 容量 规范 非常 有 用 ， 它 可 以 提供 其 他 测试 无 法 提供 的 信息 ， 来 帮 
助 发 现 应 用 的 瓶颈 。 比 如 ， 如 果 系 统 是 基于 单个 用 户 的 响应 时 间 测 试 〈 这 是 一 个 很 
糟糕 的 测试 策略 ) 设计 的 ， 虽然 测试 的 结果 很 好 ， 但 当 并 发 度 增加 时 ， 系 统 的 性 能 
有 可 能 变 得 非常 糟糕 。 而 一 个 基于 不 断 增 加 用 户 连接 的 情况 下 的 响应 时 间 测 试 则 可 
以 发 现 这 个 问题 。 
一 些 任务 ， 比 如 从 细 粒 度数 据 创 建 汇总 表 的 批量 工作 ， 需 要 的 是 周期 性 的 快速 啊 应 
时 间 。 当 然 也 可 以 测试 这 些 任务 纯粹 的 响应 时 间 ， 但 要 注意 考虑 这 些 任务 之 间 的 相 
互 影响 。 批 量 工作 可 能 导致 相互 之 间 有 影响 的 查询 性 能 变 差 ， 反 之 亦 然 。 


归根 结 底 ， 应 该 测试 那些 对 用 户 来 说 最 重要 的 指标 。 因 此 应 该 尽 可 能 地 去 收集 一 些 需求 ， 
比如 ， 什 么 样 的 响应 时 间 是 可 以 接受 的 ， 期 待 多 少 的 并 发 性 ， 等 等 。 然 后 基于 这 些 需 求 
来 设计 基准 测试 ， 避 免 目 光 短 浅 地 只 关注 部 分 指标 ， 而 忽略 其 他 指标 。 
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2.3 基准 测试 方法 

在 了 解 基本 概念 之 后 ， 现 在 可 以 来 具体 讨论 一 下 如 何 设计 和 执行 基准 测试 。 但 在 讨论 如 
何 设计 好 的 基准 测试 之 前 ， 先 来 看 一 下 如 何 避 免 一 些 常见 的 错误 ， 这 些 错误 可 能 导致 测 
试 结果 无 用 或 者 不 精确 : 


使 用 真实 数据 的 子 集 而 不 是 全 集 。 例 如 应 用 需要 处 理 几 百 GB 的 数据 ， 但 测试 只 有 
1GB 数据 ; 或 者 只 使 用 当前 数据 进行 测试 ， 却 希望 模拟 未 来 业务 大 幅度 增长 后 的 情 
Th o 

使 用 错误 的 数据 分 布 。 例 如 使 用 均匀 分 布 的 数据 测试 ， 而 系统 的 真实 数据 有 很 多 热 
点 区 域 (随机 生成 的 测试 数据 通常 无 法 模拟 真实 的 数据 分 布 ) 。 

使 用 不 真实 的 分 布 参数 ， 例 如 假定 所 有 用 户 的 个 人 信息 (profile) 都 会 被 平均 地 读 
R’, 

在 多 用 户 场景 中 ， 只 做 单 用 户 的 测试 。 

在 单 服务 器 上 测试 分 布 式 应 用 。 

与 真实 用 户 行为 不 匹配 。 例 如 Web 页 面 中 的 “思考 时 间 ”。 真 实用 户 在 请 求 到 一 个 
页 面 后 会 阅读 一 段 时 间 ， 而 不 是 不 停顿 地 一 个 接 一 个 点 击 相关 链接 。 

反复 执行 同一 个 查询 。 真 实 的 查询 是 不 尽 相 同 的 ， 这 可 能 会 导致 缓存 命中 率 降 低 。 
而 反复 执行 同一 个 查询 在 某 种 程度 上 ， 会 全 部 或 者 部 分 缓存 结果 。 

没有 检查 错误 。 如 果 测 试 的 结果 无 法 得 到 合理 的 解释 ， 比 如 一 个 本 应 该 很 慢 的 查询 
突然 变 快 了 ， 就 应 该 检查 是 否 有 错误 产生 。 否 则 可 能 只 是 测试 了 MySQL 检测 语法 
错误 的 速度 了 。 基 准 测 试 完成 后 ， 一 定 要 检查 一 下 错误 日 志 ， 这 应 当 是 基本 的 要 求 。 
忽略 了 系统 预 热 (warm up) 的 过 程 。 例 如 系统 重启 后 马上 进行 测试 。 有 时候 需 要 
了 解 系统 重启 后 需要 多 长 时 间 才 能 达到 正常 的 性 能 容量 ， 要 特别 留意 预 热 的 时 长 。 
反 过 来 说 ， 如 果 要 想 分 析 正 常 的 性 能 ， 需 要 注意 ， 若 基准 测试 在 重启 以 后 马上 启动 ， 
则 缓存 是 冷 的 、 还 没有 数据 ， 这 时 即使 测试 的 压力 相同 ， 得 到 的 结果 也 和 缓存 已 经 
装 满 数据 时 是 不 同 的 。 

使 用 默认 的 服务 器 配置 。 第 3 章 将 详细 地 讨论 服务 器 的 优化 配置 。 

测试 时 间 太 短 。 基 准 测 试 需要 持续 一 定 的 时 间 。 后 面 会 继续 讨论 这 个 话题 。 


只 有 避免 了 上 述 错误 ， 才 能 走 上 改进 测试 质量 的 漫漫 长 路 。 


如 果 其 他 条 件 相同 ， 就 应 努力 使 测试 过 程 尽 可 能 地 接近 真实 应 用 的 情况 。 当 然 ， 有 时 候 
和 真实 情况 稍 有 些 出 入 问题 也 不 大 。 例 如 ， 实 际 应 用 服务 器 和 数据 库 服务 器 分 别 部 署 在 
不 同 的 机 器 。 如 果 采 用 和 实际 部 署 完 全 相同 的 配置 当然 更 真实 ， 但 也 会 引入 更 多 的 变化 
因素 ， 比 如 加 入 了 网 络 的 负载 和 速度 等 。 而 在 单一 节点 上 运行 测试 相对 要 容易 ， 在 某 些 


注 2: 
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Justin Bieber， 我 们 爱 你 。 这 只 是 开 个 玩笑 。 
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情况 下 结果 也 可 以 接受 ， 那 么 就 可 以 在 单一 节点 上 进行 测试 。 当 然 ， 这 样 的 选择 需要 根 
据 实际 情况 来 分 析 是 否 合适 。 


2.3.1 设计 和 规划 基准 测试 

规划 基准 测试 的 第 一 步 是 提出 问题 并 明确 目标 。 然 后 决定 是 采用 标准 的 基准 测试 ， 还 是 
设计 专用 的 测试 。 

如 果 采 用 标准 的 基准 测试 ， 应 该 确认 选择 了 合适 的 测试 方案 。 例 如 ， 不 要 使 用 TPC-H 测 
试 电子 商务 系统 。 在 TPC 的 定义 中 ,“TPC-H 是 即席 查询 和 决策 支持 型 应 用 的 基准 测试 ”， 
因此 不 适合 用 来 测试 OLTP 系统 。 


设计 专用 的 基准 测试 是 很 复杂 的 ， 往 往 需要 一 个 迭代 的 过 程 。 首 先 需要 获得 生产 数据 集 
的 快照 ， 并 且 该 快照 很 容易 还 原 ， 以 便 进 行 后 续 的 测试 。 

然后 ， 针 对 数据 运行 查询 。 可 以 建立 一 个 单元 测试 集 作为 初步 的 测试 ， 并 运行 多 遍 。 但 
是 这 和 真实 的 数据 库 环境 还 是 有 差别 的 。 更 好 的 办 法 是 选择 一 个 有 代表 性 的 时 间 段 ， 比 


”如 高 峰 期 的 一 个 小 时 ， 或 者 一 整 天 ， 记 录 生 产 系 统 上 的 所 有 查询 。 如 果 时 间 段 选 得 比 


较 小 ， 则 可 以 选择 多 个 时 间 段 。 这 样 有 助 于 覆盖 整个 系统 的 活动 状态 ， 例 如 每 周报 表 的 
查询 、 或 者 非 峰值 时 间 运 行 的 批 处 理 作业 “= 。 


可 以 在 不 同 级 别 记录 查询 。 例 如 ， 如 果 是 集成 式 (full-stack) 基准 测试 ， 可 以 记录 Web 
服务 器 上 的 HTTP 请 求 ， 也 可 以 打开 MySQL 的 查询 日 志 (Query Log). {7 Hinix 
些 查 询 ， 就 要 确保 创建 多 线程 来 并 行 执 行 ， 而 不 是 单个 线程 线性 地 执行 。 对 日 志 中 的 每 
个 连接 都 应 该 创建 独立 的 线程 ， 而 不 是 将 所 有 的 查询 随机 地 分 配 到 一 些 线程 中 。 查 询 日 
志 中 记录 了 每 个 查询 是 在 哪个 连接 中 执行 的 。 


即使 不 需要 创建 专用 的 基准 测试 ， 详 细 地 写 下 测试 规划 也 是 必需 的 。 测 试 可 能 要 多 次 反 
复 运 行 ， 因 此 需要 精确 地 重 现 测 试 过 程 。 而 且 也 应 该 考虑 到 未 来 ， 执 行 下 一 轮 测试 时 可 
能 已 经 不 是 同一 个 人 了 。 即 使 还 是 同一 个 人 ， 也 有 可 能 不 会 确切 地 记得 初次 运行 时 的 情 
况 。 测 试 规划 应 该 记录 测试 数据 、 系 统 配置 的 步骤 、 如 何 测量 和 分 析 结 果 ， 以 及 预 热 的 
方案 等 。 


应 该 建立 将 参数 和 结果 文档 化 的 规范 ， 每 一 轮 测 试 都 必须 进行 详细 记录 。 文 档 规范 可 以 
很 简单 ， 比 如 采用 电子 表格 (spreadsheet) 或 者 记事 本 形式 ， 也 可 以 是 复杂 的 自 定 义 的 
数据 库 。 需 要 记 住 的 是 ， 经 常 要 写 一 些 脚本 来 分 析出 试 结 果 ， 因 此 如 果 能 够 不 用 打开 电 
子 表格 或 者 文本 文件 等 额外 操作 ， 当 然 是 更 好 的 。 


注 3: 当然 ,做 这 么 多 的 前 提 是 希望 获得 完美 的 基准 测试 结果 ， 实 际 情况 通常 不 会 很 顺利 。 
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2.3.2 基准 测试 应 该 运行 多 长 时 间 

基准 测试 应 该 运行 足够 长 的 时 间 ， 这 一 点 很 重要 。 如 果 需 要 测试 系统 在 稳定 状态 时 的 性 
能 ， 那 么 当然 需要 在 稳定 状态 下 测试 并 观察 。 而 如 果 系 统 有 大 量 的 数据 和 内 存 ， 要 达到 
稳定 状态 可 能 需要 非常 长 的 时 间 。 大 部 分 系统 都 会 有 一 些 应 对 突 发 情况 的 余 量 ， 能 够 吸 


“ 收 性 能 尖峰 ， 将 一 些 工 作 延 迟到 高 峰 期 之 后 执行 。 但 当 对 机 器 加 压 足够 长 时 间 之 后 ， 这 


些 余 量 会 被 消耗 尽 ， 系 统 的 短期 尖峰 也 就 无 法 维持 原来 的 高 性 能 


有 时 候 无 法 确认 测试 需要 运行 多 长 的 时 间 才 足够 。 如 果 是 这 样 ， 可 以 让 测试 一 直 运 行 ， 
持续 观察 直到 确认 系统 已 经 稳定 。 下 面 是 一 个 在 已 知 系统 上 执行 测试 的 例子 ， 图 2-1 显 
示 了 系统 磁盘 读 和 写 吞 吐 量 的 时 序 图 
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2-1: 扩展 基准 测试 的 MO 性 能 图 


系统 预 热 完 成 后 ， 读 1/O 活动 在 三 四 个 小 时 后 曲线 趋向 稳定 ， 但 写 1/0 至 少 在 八 小 时 内 
变化 还 是 很 大 ， 之 后 有 一 些 点 的 波动 较 大 ， 但 读 和 写 总 体 来 说 基本 稳定 了 上 4。 一 个 简单 
的 测试 规则 ， 就 是 等 系统 看 起 来 稳定 的 时 间 至 少 等 于 系统 预 热 的 时 间 。 本 例 中 的 测试 持 


SET 72 个 小 时 才 结 束 ， 以 确保 能 够 体现 系统 长 期 的 行为 。 
一 个 常见 的 错误 的 测试 方式 是 ， 只 执行 一 系列 短期 的 测试 ， 比 如 每 次 60 秒 ， 并 在 此 测 


试 的 基础 上 去 总 结 系 统 的 性 能 。 我 们 经 常 可 以 昕 到 类 似 这 样 的 话 :“ 我 尝试 对 新 版 本 做 


注 4: 顺便 说 一 下 ， 写 IO 的 活动 图 展示 的 性 能 非常 差 。 这 个 系统 的 稳定 状态 从 性 能 上 来 说 是 一 种 灾难 。 
已 经 达到 “稳定 ”可 以 说 是 笑话 ， 不 过 这 里 我 们 的 重点 在 于 说 明 系 统 的 长 期 行为 。 
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了 测试 ， 但 还 不 如 旧版 本 快 "， 然 而 我 们 分 析 实 际 的 测试 结果 后 发 现 ， 测 试 的 方式 根本 
不 足以 得 出 这 样 的 结论 。 有 时 候 人 们 也 会 强调 说 不 可 能 有 时 间 去 测试 8 或 者 12 个 小 时 ， 
以 验证 10 个 不 同 并 发 性 在 两 到 三 个 不 同 版 本 下 的 性 能 。 如 果 没 有 时 间 去 完成 准确 完整 
的 基准 测试 ， 那 么 已 经 花费 的 所 有 时 间 都 是 一 种 浪费 。 有 时 候 要 相信 别人 的 测试 结 采 ， 
这 总 比 做 一 次 半 拉 子 的 测试 来 得 到 一 个 错误 的 结论 要 好 。 


2.3.3 获取 系统 性 能 和 状态 


在 执行 基准 测试 时 ， 需 要 尽 可 能 多 地 收集 被 测试 系统 的 信息 。 最 好 为 基准 测试 建立 一 个 


目录 ， 并 且 每 执行 一 轮 测试 都 创建 单独 的 子 目 录 ， 将 测试 结果 、 配 置 文 件 、 测 试 指标 、 
脚本 和 其 他 相关 说 明 都 保存 在 其 中 。 即 使 有 些 结果 不 是 目前 需要 的 ， 也 应 该 先 保 存 下 来 。 
多 余 一 些 数据 总 比 缺 乏 重 要 的 数据 要 好 ， 而 且 多 余 的 数据 以 后 也 许 会 用 得 着 。 需 要 记录 
的 数据 包括 系统 状态 和 性 能 指标 ， 诸 如 CPU 使 用 率 、 磁 盘 1O、 网 络 流 量 统 计 、SHOW 
GLOBAL STATUS 计数 器 等 。 


下 面 是 一 个 收集 MySQL 测试 数据 的 shell 脚本 ; 


#!/bin/sh 


INTERVAL=5 
PREFIX=$INTERVAL-sec-status 
RUNFILE=/home/benchmarks/running 
mysql -e ‘SHOW GLOBAL VARIABLES’ >> mysql-variables 
while test -e $RUNFILE; do 
file=$(date +%F %I) 
sleep=$(date +%s.%N | awk "{print $INTERVAL - (\$1 % $INTERVAL)}") 
sleep $sleep 
ts="$(date +"TS %s.%N %F %T")" 
loadavg="$(uptime) " 
echo "$ts $loadavg" >> $PREFIX-${file}-status 
mysql -e "SHOW GLOBAL STATUS’ >> $PREFIX-${file}-status & 
echo "$ts $loadavg" >> $PREFIX-${file}-innodbstatus 
mysql -e 'SHOW ENGINE INNODB STATUS\G' >> $PREFIX-${file}-innodbstatus & 
echo "$ts $loadavg" >> $PREFIX-${file}-processlist 
mysql -e “SHOW FULL PROCESSLIST\G' >> $PREFIX-${file}-processlist & 
echo $ts 
done 
echo Exiting because $RUNFILE does not exist. 


这 个 shell 脚本 很 简单 ， 但 提供 了 一 个 有 效 的 收集 状态 和 性 能 数据 的 框架 。 看 起 来 好 像 作 

用 不 大 ,但 当 需 要 在 多 个 服务 器 上 执行 比较 复杂 的 测试 的 时 候 ， 要 回答 以 下 关于 系统 行 

为 的 问题 ， 没 有 这 种 脚本 的 话 就 会 很 困难 了 。 下 面 是 这 个 脚本 的 一 些 要 点 ， 

。 ”迭代 是 基于 固定 时 间 间 隔 的 ， 每 隔 5 秒 运行 一 次 收集 的 动作 ， 注 意 这 里 sleep 的 时 间 
有 一 个 特殊 的 技巧 。 如 果 只 是 简单 地 在 每 次 循环 时 插入 一 条 “sleep 5” WES, W 
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环 的 执行 间隔 时 间 一 般 都 会 稍 大 于 5 秒 ， 那 么 这 个 脚本 就 没有 办 法 通过 其 他 脚本 和 
图 形 简单 地 捕获 时 间 相 关 的 准确 数据 。 即 使 有 时 候 循环 能 够 恰好 在 5 秒 内 完成 ， 但 
如 果 某 些 系统 的 时 间 惟 是 15:32:18.218192， 另 外 一 个 则 是 15:32:23.819437， 这 时 候 
就 比较 讨 大 了。 当然 这 里 的 5 秒 也 可 以 改 成 其 他 的 时 间 间 隔 ， 比 如 1、10、30 或 者 
60 秒 。 不 过 还 是 推荐 使 用 5 秒 或 者 10 秒 的 间隔 来 收集 数据 。 

© 每 个 文件 名 都 包含 了 该 轮 测试 开始 的 日 期 和 小 时 。 如 果 测 试 要 持续 好 几 天 ， 那 么 这 
个 文件 可 能 会 非常 大 ， 有 必要 的 话 需 要 手工 将 文件 移 到 其 他 地 方 ， 但 要 分 析 全 部 结 
果 的 时 候 要 注意 从 最 早 的 文件 开始 。 如 果 只 需要 分 析 某 个 时 间 点 的 数据 ， 则 可 以 根 
据 文 件 名 中 的 日 期 和 小 时 迅速 定位 ， 这 比 在 一 个 GB 以 上 的 大 文件 中 去 搜索 要 快捷 
得 多 。 

© 每 次 抓 取 数据 都 会 先 记 录 当 前 的 时 间 惟 ， 所 以 可 以 在 文件 中 搜索 某 个 时 间 点 的 数据 。 
也 可 以 写 一 些 awk 或 者 sed 脚本 来 简化 操作 。 

。 ”这 个 脚本 不 会 处 理 或 者 过 滤 收 集 到 的 数据 。 先 收集 所 有 的 原始 数据 ， 然 后 再 基于 此 
做 分 析 和 过 滤 是 一 个 好 习惯 。 如 果 在 收集 的 时 候 对 数据 做 了 预 处 理 ， 而 后 续 分 析 发 
现 一 些 异 常 的 地 方 需要 用 到 更 多 的 原始 数据 ， 这 时 候 就 要 “ 抓 瞎 ”了 。 

© 如果 需要 在 测试 完成 后 脚本 自动 退出 ， 只 需要 删除 /home/benchmarks/running 文件 
即 可 。 


这 只 是 一 段 简单 的 代码 ， 或 许 不 能 满足 全 部 的 需求 ， 但 却 很 好 地 演示 了 该 如 何 捕获 测 
试 的 性 能 和 状态 数据 。 从 代码 可 以 看 出 ， 只 捕获 了 MySQL 的 部 分 数据 ， 如 果 需 要 ， 则 
很 容易 通过 修改 脚本 添加 新 的 数据 捕获 。 例 如 ， 可 以 通过 pt-diskstats 工具 生 5 捕获 /proc/ 
diskstats 的 数据 为 后 续 分 析 磁 盘 LO 使 用 。 


2.3.4 获得 准确 的 测试 结果 

获得 准确 测试 结果 的 最 好 办 法 ， 是 回答 一 些 关 于 基准 测试 的 基本 问题 : 是 否 选择 了 正确 
的 基准 测试 ? 是 否 为 问题 收集 了 相关 的 数据 ? 是 否 采用 了 错误 的 测试 标准 ? 例如 ， 是否 
对 一 个 IO 密集 型 (IO-bound) 的 应 用 ， 采 用 了 CPU 密集 型 (CPU-bound) 的 测试 标准 
来 评估 性 能 ? 


接着， 确认 测试 结 采 是 否 可 重复 。 每 次 重新 测试 之 前 要 确保 系统 的 状态 是 一 致 的 。 如 果 


是 非常 重要 的 测试 ， 甚 至 有 必要 每 次 测试 都 重启 系统 。 一 般 情 况 下 ， 需 要 测试 的 是 经 过 
预 热 的 系统 ， 还 需要 确保 预 热 的 时 间 足 够 长 (请 参考 前 面 关 于 基准 测试 需要 运行 多 长 时 
则 的 内 容 )、 是 否 可 重复 。 如 果 预 热 采 用 的 是 随机 查询 ,那么 测试 结果 可 能 就 是 不 可 重复 的 。 


如 采 测 试 的 过 程 会 修改 数据 或 者 schema， 那 么 每 次 测试 前 ， 需 要 利用 快照 还 原 数 据 。 在 


注 5: 关于 pt-diskstats 工具 的 更 多 信息 ， 请 参考 第 9 章 。 
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表 中 插入 1 000 条 记录 和 插入 100 万 条 记录 ， 测 试 结果 肯定 不 会 相同 。 数 据 的 碎片 度 和 
在 磁盘 上 的 分 布 ， 都 可 能 导致 测试 是 不 可 重复 的 。 一 个 确保 物理 磁盘 数据 的 分 布 尽 可 能 
一 致 的 办 法 是 ， 每 次 都 进行 快速 格式 化 并 进行 磁盘 分 区 复制 。 


要 注意 很 多 因素 ， 包 括 外 部 的 压力 、 性 能 分 析 和 监控 系统 、 详 细 的 日 志 记 录 、 周 期 性 作 
业 ， 以 及 其 他 一 些 因素 ， 都 会 影响 到 测试 结果 。 一 个 典型 的 案例 ， 就 是 测试 过 程 中 突然 
有 cron 定时 作业 启动 ， 或 者 正 处 于 一 个 巡查 读 取 周 期 (Patrol Read cycle), ， 抑 或 RAID 
卡 启动 了 定时 的 一 致 性 检查 等 。 要 确保 基准 测试 运行 过 程 中 所 需要 的 资源 是 专用 于 测试 
的 。 如 果 有 其 他 额外 的 操作 ， 则 会 消耗 网 络 带宽 ， 或 者 测试 基于 的 是 和 其 他 服务 器 共享 
的 SAN 存储 ， 那 么 得 到 的 结果 很 可 能 是 不 准确 的 。 


每 次 测试 中 ， 修 改 的 参数 应 该 尽量 少 。 如 果 必 须要 一 次 修改 多 个 参数 ， 那 么 可 能 会 丢失 
一 些 信息 。 有 些 参数 依赖 其 他 参数 ， 这 些 参 数 可 能 无 法 单独 修改 。 有 时 候 甚 至 都 设 有 意 
识 到 这 些 依赖 ， 这 给 测试 带 来 了 复杂 性 “。 


一 般 情况 下 ， 都 是 通过 迭代 逐步 地 修改 基准 测试 的 参数 ， 而 不 是 每 次 运行 时 都 做 大 量 
的 修改 。 举 个 例子 ， 如 果 要 通过 调整 参数 来 创造 一 个 特定 行为 ， 可 以 通过 使 用 分 治 法 
(divide-and-conquer， 每 次 运行 时 将 参数 对 分 减 半 ) 来 找到 正确 的 值 。 


很 多 基准 测试 都 是 用 来 做 预测 系统 迁移 后 的 性 能 的 ， 比 如 从 Oracle 迁移 到 MySQL。 这 
种 测试 通常 比较 麻烦 ， 因 为 MySQL 执行 的 查询 类 型 与 Oracle 完全 不 同 。 如 果 想 知道 在 
Oracle 运行 得 很 好 的 应 用 迁移 到 MySQL 以 后 性 能 如 何 ， 通常 需要 重新 设计 MySQL 的 
schema 和 查询 (在 某 些 情况 下 ， 比 如 ， 建 立 一 个 跨 平 台 的 应 用 时 ， 可 能 想 知道 同一 条 查 
询 是 如 何在 两 个 平台 运行 的 ， 不 过 这 种 情况 并 不 多 见 )。 


另外 ， 基 于 MySQL 的 默认 配置 的 测试 没有 什么 意义 ， 因 为 默认 配置 是 基于 消耗 很 少 内 
存 的 极 小 应 用 的 。 有 时 候 可 以 看 到 一 些 MySQL 和 其 他 商业 数据 库 产品 的 对 比 测试 ， 结 
果 很 让 人 乾 座 ， 可 能 就 是 MySQL 采用 了 默认 配置 的 缘故 。 让 人 无 语 的 是 ， 这 样 明显 有 
误 的 测试 结 采 还 容易 变 成 头条 新 闻 。 

固态 存储 (SSD 或 者 PCI-E R) 给 基准 测试 带 来 了 很 大 的 挑战 ， 第 9 章 将 进一步 讨论 。 
最 后 ， 如 果 测 试 中 出 现 异常 结果 ， 不 要 轻易 当 作 坏 数 据点 而 丢弃 。 应 该 认真 研究 并 找到 
产生 这 种 结果 的 原因 。 测 试 可 能 会 得 到 有 价值 的 结果 ， 或 者 一 个 严重 的 错误 ， 抑 或 基准 


测试 的 设计 缺陷 。 如 果 对 测试 结果 不 了 解 ， 就 不 要 轻易 公布 。 有 一 些 案例 表明 ， 异 第 的 
测试 结果 往往 都 是 由 于 很 小 的 错误 导致 的 ， 最 后 搞 得 测试 无 功 而 返 “”。 


注 6: 有 时 ,这 并 不 是 问题 。 例 如 ， 如 果 正 在 考虑 从 基于 SPARC 的 Solaris 系统 迁移 到 基于 x86 的 GNU/ 
Linux 系统 ， 就 没有 必要 测试 基于 x86 的 Solaris 作为 中 间 过 程 。 
注 7: 本 书 的 任何 一 位 作者 都 还 没 发 生 过 这 样 的 事情 ， 仅 供 参 考 。 


2.3 基准 测试 方法 | 45 


2.3.5 运行 基准 测试 并 分 析 结 果 
一 且 准 备 就 绪 ， 了 就 可 以 着 手 基准 测试 ， 收 集 和 分 析 数 据 了 。 


通常 来 说 ， 自 动 化 基准 测试 是 个 好 主意 。 这 样 做 可 以 获得 更 精确 的 测试 结果 。 因 为 自动 
化 的 过 程 可 以 防止 测试 人 员 偶尔 遗漏 某 些 步 又 ， 或 者 误 操 作 。 另 外 也 有 助 于 归档 整个 测 
试 过 程 。 


目 动 化 的 方式 有 很 多 ， 可 以 是 一 个 Makefile 文件 或 者 一 组 脚本 。 脚 本 语言 可 以 根据 需要 
选择 :shell、PHP、Perl 等 都 可 以 。 要 尽 可 能 地 使 所 有 测试 过 程 都 自动 化 , 包括 装载 数据 、 
系统 预 热 、 执 行 测 试 、 记 录 结 采 等 。 


。 用 做 一 次 性 的 快速 验证 测试 ， 可 能 就 没 必 要 做 自动 化 。 但 只 要 未 来 可 能 会 引用 到 测 


s， 试 结果 ， 建 议 都 尽量 地 自动 化 。 否 则 到 时 候 可 能 就 搞 不 清楚 是 如 何 获得 这 个 结果 的 ， 
也 不 记得 采用 了 什么 参数 ， 这 样 就 很 难 再 通过 测试 重 现 结果 了 。 
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基准 测试 通常 需要 运行 多 次 。 具 体 需 要 运行 多 少 次 要 看 对 结果 的 记分 方式 ， 以 及 测试 的 
重要 程度 。 要 提高 测试 的 准确 度 ， 就 需要 多 运行 几 次 。 一 般 在 测试 的 实践 中 ， 可 以 取 最 
好 的 结果 值 ， 或 者 所 有 结果 的 平均 值 ， 抑 或 从 五 个 测试 结 末 里 取 最 好 三 个 值 的 平均 值 。 
可 以 根据 需要 更 进一步 精确 化 测试 结果 。 还 可 以 对 结果 使 用 统计 方法 ， 确 定 置信 区 间 
(confidence interval) 等 。 不 过 通常 来 说 ,不 会 用 到 这 种 程度 的 确定 性 结果 “*。 只 要 测试 
的 结果 能 满足 目前 的 和 需求， 简单 地 运行 几 轮 测试 ， 看 看 结果 的 变化 就 可 以 了 。 如 果 结 果 
变化 很 大 ， 可 以 再 多 运行 几 次 ， 或 者 运行 更 长 的 时 间 ， 这 样 都 可 以 获得 更 确定 的 结果 。 


获得 测试 结果 后 ， 还 需要 对 结果 进行 分 析 ， 也 就 是 说 ， 要 把 “数字 ” 变 成 “知识 "。 最 
终 的 目的 是 回答 在 设计 测试 时 的 问题 。 理 想 情况 下 ， 可 以 获得 诸如 “升级 到 4 核 CPU 可 
以 在 保持 响应 时 间 不 变 的 情况 下 获得 超过 50% 的 吞吐 量 增长 ”或 者 “增加 索引 可 以 使 查 
询 更 快 ” 的 结论 。 如 果 需 要 更 加 科学 化 ， 建 议 在 测试 前 读 读 null hypothesis 一 书 ,但 大 
部 分 情况 下 不 会 要 求 做 这 么 严格 的 基准 测试 。 


如 何 从 数据 中 抽象 出 有 意义 的 结果 ， 依 赖 于 如 何 收集 数据 。 通 党 需要 写 一 些 脚 本 来 分 析 
数据 ， 这 不 仅 能 减轻 分 析 的 工作 量 ， 而 且 和 自动 化 基准 测试 一 样 可 以 重复 运行 ， 并 易于 
文档 化 。 下 面 是 一 个 非常 简单 的 shell 脚本 ， 演 示 了 如 何 从 前 面 的 数据 采集 脚本 采集 到 的 
数据 中 抽取 时 间 维 度 信息 。 脚 本 的 输入 参数 是 采集 到 的 数据 文件 的 名 字 。 


注 8 : 如 果真 的 需要 科学 可 靠 的 结果 ， 应 该 去 读 读 关 于 如 何 设计 和 执行 可 挖 测试 的 书籍 ， 这 个 已 经 超出 
了 本 书 讨 论 的 范 畸 。 
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#!/bin/sh 


# This script converts SHOW GLOBAL STATUS into a tabulated format, one line 
# per sample in the input, with the metrics divided by the time elapsed 
# between samples. 


awk ' 
BEGIN { 
printf "#ts date time load QPS"; 
fmt = " %.2F"; 


} 
/*TS/ { # The timestamp lines begin with TS. 


ts = substr($2, 1, index($2, ".") - 1); 
load = NF - 2; 

diff = ts - prev_ts; 

prev_ts = ts; 


printf "\n%s %s %s 4s", ts, $3, $4, substr($load, 1, length($load)-1); 
} 
/Queries/ { 

printf fmt, ($2-Queries)/diff; 

Queries=$2 


} 
l ngg" 


得 到 如 下 的 结果 : 


[baron@ginger ~]$ ./analyze 5-sec-status-2011-03-20 
#ts date time load QPS 


1300642150 
1300642155 
1300642160 
1300642165 
1300642170 
1300642175 
1300642180 
1300642185 
1300642190 


2011-03-20 
2011-03-20 
2011-03-20 
2011-03-20 
2011-03-20 
2011-03-20 
2011-03-20 
2011-03-20 
2011-03-20 


17: 
17: 
17: 
17: 
17: 
17: 
17: 
17: 
17: 


0 
0 
0 
0 
0. 
0 
0 
0 
0 


0.62 

1311.60 
1770.60 
1756.60 
1752.40 
1735.00 
1713.00 
1788.00 
1596.40 


第 一 行 是 列 的 名 字 ; 第 二 行 的 数据 应 该 忽略 ， 因 为 这 是 测试 实际 启动 前 的 数据 。 接 下 来 
的 行 包含 Unix Palak. AR, Pi (注意 时 间 数 据 是 每 5 秒 更 新 一 次 ， 前 面 脚本 说 明 
时 曾 提 过 )、 系 统 负载 、 数 据 库 的 QPS (每 秒 查 询 次 数 ) 五 列 ， 这 应 该 是 用 于 分 析 系 统 
性 能 的 最 少数 据 需 求 了 。 接 下 来 将 演示 如 何 根 据 这 些 数 据 快速 地 绘 成 图 形 ， 并 分 析 基 准 
测试 过 程 中 发 生 了 什么 。 


2.3.6 绘图 的 重要 性 

如 果 你 想 要 统治 世界 , 就 必须 不 断 地 利用 “阴谋 ” 汪 ”。 而 最 简单 有 效 的 图 形 , 就 是 将 性 能 
标 按照 时 间 顺 序 绘制 。 通 过 图 形 可 以 立刻 发 现 一 些 问 题 ， 而 这 些 问题 在 原始 数据 中 却 
12.9: 


英语 中 plot 既 有 “有 阴谋 ”的 意思 ， 也 有 “绘图 ”的 意思 ， 所 以 这 里 是 一 名 双关 语 。 一 一 译 者 注 
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很 难 被 注意 到 。 或 许 你 会 坚持 看 测试 工具 打印 出 来 的 平均 值 或 其 他 汇 总 过 的 信息 ， 但 平 
均值 有 时 候 是 没有 用 的 ， 它 会 掩盖 掉 一 些 真实 情况 。 幸 运 的 是 ， 前 面 写 的 脚本 的 输出 都 
可 以 定制 作为 gnuplot 或 者 RR 绘图 的 数据 来 源 。 假 设 使 用 gnuplot， 假 设 输出 的 数据 文件 
名 是 OPS-per-5-seconds : 


gnuplot> plot "QPS-per-5-seconds" using 5 w lines title "QPS" 


该 gnuplot 命令 将 文件 的 第 五 列 gps 数据 绘 成 图 形 ， 图 的 标题 是 QPS。 图 2-2 是 绘制 出 
来 的 结果 图 。 


“8 


图 2-2: 基准 测试 的 QPS 图 形 


下 面 我 们 讨论 一 个 可 以 更 加 体现 图 形 价 值 的 例子 。 假 设 MySQL 数据 正在 遭受 “疯狂 刷 
新 (furious flushing)” 的 问题 ， 在 刷新 落后 于 检查 点 时 会 阻塞 所 有 的 活动 ， 从 而 导致 吞 
叶 量 严重 下 跌 。95% 的 响应 时 间 和 平均 响应 时 间 指 标 都 无 法 发 现 这 个 问题 ， 也 就 是 说 这 
两 个 指标 掩盖 了 问题 。 但 图 形 会 显示 出 这 个 周期 性 的 问题 ， 请 参考 图 2-3。 


图 2-3 显示 的 是 每 分 钟 新 订单 的 交易 量 (NOTPM, new-order transactions per minute). 
从 曲线 可 以 看 到 明显 的 周期 性 下 降 ， 但 如 果 从 平均 值 ( 点 状 虚线 ) 来 看 波动 很 小 。 一 开 
始 的 低谷 是 由 于 系统 的 缓存 是 空 的 ， 而 后 面 其 他 的 下 跌 则 是 由 于 系统 刷新 脏 块 到 磁盘 导 
致 。 如 果 没 有 图 形 ， 要 发 现 这 个 趋势 会 比较 困难 。 
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图 2-3: 一 个 30 分 钟 的 dbt2 测 试 的 结果 


这 种 性 能 尖 刺 在 压力 大 的 系统 比较 常见 ， 需 要 调查 原因 。 在 这 个 案例 中 ， 是 由 于 使 用 了 
旧版 本 的 InnoDB 引擎 ， 脏 块 的 刷新 算法 性 能 很 差 。 但 这 个 结论 不 能 是 想当然 的 ， 需 要 
认真 地 分 析 详 细 的 性 能 统计 ,在 性 能 下 跌 时 ,SHOW ENGINE INNODB STATUS 的 输出 是 什么 ? 
SHOW FULL PROCESSLIST 的 输出 是 什么 ”应 该 可 以 发 现 InnoDB 在 持续 地 刷新 脏 块 ， 并 
且 阻 塞 了 很 多 状态 是 “waiting on query cache lock” 的 线程 ， 或 者 其 他 类 似 的 现象 。 在 
执行 基准 测试 的 时 候 要 尽 可 能 地 收集 更 多 的 细节 数据 ， 然 后 将 数据 绘制 成 图 形 ， 这 样 可 
以 帮助 快速 地 发 现 问题 。 


2.4 基准 测试 工具 
疫 有 必要 开发 自己 的 基准 测试 系统 ， 除 非 现 有 的 工具 确实 无 法 满足 需求 。 下 面 的 章节 会 
介绍 一 些 可 用 的 工具 。 


2.4.1 集成 式 测试 工具 <S 
回忆 一 下 前 文 提供 的 两 种 测试 类 型 MRA ERR, BRA, AELA 

是 针对 整个 应 用 进行 测试 ， 也 有 些 工具 是 针对 MySQL 或 者 其 他 组 件 单独 进行 测试 的 。 

集成 式 测试 ， 通 常 是 获得 整个 应 用 概况 的 最 佳 手段 。 已 有 的 集成 式 测试 工具 如 下 所 示 。 


ab 
ab 是 一 个 Apache HTTP 服务 器 基准 测试 工具 。 它 可 以 测试 ATT? 服务 器 每 秒 最 多 
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可 以 处 理 多 少 请 求 。 如 有 果 测 试 的 是 Web 应 用 服务 ， 这 个 结果 可 以 转换 成 整个 应 用 
每 秒 可 以 满足 多 少 请 求 。 这 是 个 非常 简单 的 工具 ， 用 途 也 有 限 ， 只 能 针对 单个 URL 
进行 尽 可 能 快 的 压力 测试 。 关 于 ab 的 更 多 信息 可 以 参考 htip://httpd.apache.org/ 
docs/2.0/programs/ab.html, 


http load 


这 个 工具 概念 上 和 ab 类 似 , 也 被 设计 为 对 Web 服务 器 进行 测试 ,但 比 ab 要 更 加 灵活 。 
可 以 通过 一 个 输入 文件 提供 多 个 URL，http_load 在 这 些 URL 中 随机 选择 进行 测试 。 
也 可 以 定制 http_load， 使 其 按照 时 间 比 率 进行 测试 ， 而 不 仅仅 是 测试 最 大 请 求 处 理 
能 力 。 更 多 信息 请 参考 http://www.acme.com/software/http-load/. 


JMeter 


JMeter 是 一 个 Java 应 用 程序 ， 可 以 加 载 其 他 应 用 并 测试 其 性 能 。 它 虽然 是 设计 用 来 
测试 Web 应 用 的 ， 但 也 可 以 用 于 测试 其 他 诸如 FTP 服务 器 ， 或 者 通过 JDBC 进行 数 
据 库 查询 测试 。 

JMeter 比 ab 和 http_load 都 要 复杂 得 多 。 例 如 ， 它 可 以 通过 控制 预 热 时 间 等 参数 ， 
更 加 灵活 地 模拟 真实 用 户 的 访问 。JMeter 拥有 绘图 接口 ( 带 有 内 置 的 图 形 化 处 理 的 
功能 )， 还 可 以 对 测试 进行 记录 ， 然 后 离线 重演 测试 结果 。 更 多 信息 请 参考 http:// 


jakarta.apache.org/jmeter/, 


2.4.2 单 组 件 式 测试 工具 | 
有 一 些 有 用 的 工具 可 以 测试 MySQL 和 基于 MySQL 的 系统 的 性 能 。2.5 节 将 演示 如 何 利 
用 这 些 工具 进行 测试 。 


mysqlslap 


mysqlslap (http://dev.mysql.com/doc/refman/5.1/en/mysqlslap.html) 可 以 模拟 服务 器 
的 负载 ， 并 输出 计时 信息 。 它 包含 在 MySQL 5.1 的 发 行 包 中 ， 应 该 在 MySQL 4.1 
或 者 更 新 的 版 本 中 都 可 以 使 用 。 测 试 时 可 以 执行 并 发 连接 数 ， 并 指定 SQL 语句 (可 
以 在 命令 行 上 执行 ,也 可 以 把 SQL 语句 写 和 人 到 参数 文件 中 ) 。 如 果 没 有 指定 SQL 语句 ， 
mysqlslap 会 自动 生成 查询 schema 的 SELECT 语句 。 


L52 > MySQL Benchmark Suite (sql-bench) 
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在 MySQL 的 发 行 包 中 也 提供 了 一 款 目 己 的 基准 测试 套件 ， 可 以 用 于 在 不 同 数 据 库 
服务 器 上 进行 比较 测试 。 它 是 单线 程 的 ， 主 要 用 于 测试 服务 器 执行 查询 的 速度 。 结 
果 会 显示 哪 种 类 型 的 操作 在 服务 器 上 执行 得 更 快 。 

这 个 测试 套件 的 主要 好 处 是 包含 了 大 量 预定 义 的 测试 ， 容 易 使 用 ， 所 以 可 以 很 轻 
松 地 用 于 比较 不 同 存储 引擎 或 者 不 同 配置 的 性 能 测试 。 其 也 可 以 用 于 高 层次 测试 ， 
比较 两 个 服务 器 的 总 体 性 能 。 当 然 也 可 以 只 执行 预定 义 测 试 的 子 集 (例如 只 测试 
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UPDATE 的 性 能 ) 。 这 些 测试 大 部 分 是 CPU 密集 型 的 ， 但 也 有 些 短 时 间 的 测试 需要 大 
量 的 磁盘 IO 操作 。 
这 个 套件 的 最 大 缺点 主要 有 : 它 是 单 用 户 模式 的 ， 测 试 的 数据 集 很 小 且 用 户 无 法 使 
用 指定 的 数据 ， 并 且 同 一 个 测试 多 次 运行 的 结果 可 能 会 相差 很 大 。 因 为 是 单线 程 且 串 
行 执行 的 ， 所 以 无 法 测试 多 CPU 的 能 力 ， 只 能 用 于 比较 单 CPU 服务 器 的 性 能 差别 。 
使 用 这 个 套件 测试 数据 库 服务 器 还 需要 Perl 和 BDB 的 支持 ， 相 关 文 档 请 参考 http:// 
dev.mysq!.com/doc/en/mysql-benchmarks.html/, 

Super Smack 
Super Smack (http://vegan.net/tony/supersmack/) 是 一 款 用 于 MySQL 和 PostgreSQL 
的 基准 测试 工具 ， 可 以 提供 压力 测试 和 负载 生成 。 这 是 一 个 复杂 而 强大 的 工具 ， 可 
以 模拟 多 用 户 访问 ， 可 以 加 载 测 试 数据 到 数据 库 ， 并 支持 使 用 随机 数据 填充 测试 表 。 
测试 定义 在 “smack” 文 件 中 ，smack 文件 使 用 一 种 简单 的 语法 定义 测试 的 客户 端 、 
表 、 查 询 等 测试 要 素 。 

Database Test Suite 
Database Test Suite 是 由 开源 软件 开发 实验 室 (OSDL, Open Source Development 
Labs) 设计 的 ， 发 布 在 SourceForge 网 站 (http://sourceforge.net/projects/osdldbt/) 
上 ， 这 是 一 款 类 似 某 些 工业 标准 测试 的 测试 工具 集 ， 例 如 由 事务 处 理性 能 委员 会 
(TPC，Transaction Processing Performance Council) 制定 的 各 种 标准 。 特 别 值 得 一 
提 的 是 ， 其 中 的 db12 就 是 一 款 免费 的 TPC-C OLTP 测试 工具 (未 认证 )。 之 前 本 书 
作者 经 常 使 用 该 工具 ， 不 过 现在 已 经 使 用 自己 研发 的 专用 于 MySQL 的 测试 工具 替 
KT. 

Percona s TPCC-MySQL Tool 
我 们 开发 了 一 个 类 似 TPC-C 的 基准 测试 工具 集 ， 其 中 有 部 分 是 专门 为 MySQL 测 
试 开发 的 。 在 评估 大 压力 下 MySQL 的 一 些 行 为 时 ， 我 们 经 稼 会 利用 这 个 工具 进行 
测试 (简单 的 测试 ， 一 般 会 采用 sysbench 替代 )。 该 工具 的 源 代 码 可 以 在 https:// 
launchpad.net/perconatools 下 载 ， 在 源码 库 中 有 一 个 简单 的 文档 说 明 。 

sysbench 
sysbench (https://launchpad.net/sysbench) 是 一 款 多 线程 系统 压 测 工具 。 它 可 以 根 
据 影响 数据 库 服务 器 性 能 的 各 种 因素 来 评估 系统 的 性 能 。 例 如 ， 可 以 用 来 测试 文件 
I/O、 操 作 系 统 调度 器 、 内 存 分 配 和 传输 速度 、POSIX 线程 ， 以 及 数据 库 服务 器 等 。 
sysbench 支持 Lua 脚本 语言 (http://www.lua.org), Lua 对 于 各 种 测试 场景 的 设置 可 
以 非常 灵活 。sysbench 是 我 们 非常 喜欢 的 一 种 全 能 测试 工具 ， 支 持 MySQL、 操 作 系 
统 和 硬件 的 硬件 测试 。 
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MySQL 的 BENCHMARK() 函数 


MySQL 有 一 个 内 置 的 BENCHMARK() 函数 ， 可 以 测试 菜 些 特定 操作 的 执行 速度 。 参 
数 可 以 是 需要 执行 的 次 数 和 表达 式 。 表 达 式 可 以 是 任何 的 标量 表达 式 ， 比 如 返回 值 
是 标量 的 子 查询 或 者 函数 。 该 函数 可 以 很 方便 地 测试 某 些 特定 操作 的 性 能 ， 比 如 通 
过 测试 可 以 发 现 ，MD5() 函数 比 SHA1L() 函数 要 快 : 


mysql> SET @input := ‘hello world’; 
mysql? SELECT BENCHMARK 1000000, nDs(Ginput)); 


1 row in set (2.78 sec) 
iad SELECT BENCHMARK(1000000, sisi aia 


1 row in set (3.50 sec) 


执行 后 的 返回 值 永远 是 0， 但 可 以 通过 客户 问 返 回 的 时 间 来 判断 执行 的 时 间 。 在 这 
个 例子 中 可 以 看 到 MD5() 执行 比 SHA1() 要 快 。 使 用 BENCHMARK() 函数 来 测试 性 能 ， 
需要 清楚 地 知道 其 原理 ， 否 则 容易 误 用 。 这 个 函数 只 是 简单 地 返回 服务 器 执行 表达 
式 的 时 间 ， 而 不 会 涉及 分 析 和 优化 的 开销 。 而 且 表 达 式 必须 像 这 个 例子 一 样 包含 用 
户 定义 的 变量 ， 否 则 多 次 执行 同样 的 表达 式 会 因为 系统 缓存 命中 而 影响 结果 “。 


虽然 BENCHMARK() 函数 用 起 来 很 方便 ， 但 不 合适 用 来 做 真正 的 基准 测试 ， 因 为 很 难 
理解 真正 要 测试 的 是 什么 ， 而 且 测 试 的 只 是 整个 执行 周期 中 的 一 部 分 环节 。 


> 2.5 基准 测试 案例 


本 节 将 演示 一 些 利 用 上 面 提 到 的 基准 测试 工具 进行 测试 的 真实 案例 。 这 些 案例 未 必 池 盖 
所 有 测试 工具 ， 但 应 该 可 以 帮助 读者 针对 自己 的 测试 需要 来 做 出 判断 和 选择 ， 并 作为 人 
门 的 开端 。 


注 10 : 本 书 作者 之 一 碰 到 了 这 个 问题 ， 因 为 发 现 循 环 执行 1 000 次 表达 式 和 只 执行 一 次 表达 式 的 时 间 居 然 
差不多 ， 这 只 能 说 明 缓 存 命 中 了 。 实 际 上 ， 当 碰 到 此 类 情况 时 ， 第 一 反应 就 应 当 是 缓存 命中 或 者 
出 错 了 。 
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2.5.1 http_load 


下 面 通过 一 个 简单 的 例子 来 演示 如 何 使 用 pttp_1oad。 首 先 创 建 一 个 urls.txt 文件 ， 输 入 
如 下 的 URL : 


http://www.mysqlperformanceblog.com/ 

http: //www.mysqlperformanceblog.com/page/2/ 

http: //www.mysqlperformanceblog.com/mysql-patches/ 

http: //waw.mysqlperformanceblog .com/mysql-performance-presentations/ 

http: //www.mysqlperformanceblog . com/2006/09/06/slow-query-log-analyzes-tools/ 


http load 最 简单 的 用 法 ， 就 是 循环 请 求 给 定 的 URL 列表 。 测 试 程序 将 以 最 快 的 速度 请 
求 这 些 URL : 


$ http load -parallel 1 -seconds 10 urls.txt 
19 fetches, 1 max parallel, 837929 bytes, in 10.0003 seconds 
44101.5 mean bytes/connection 
1.89995 fetches/sec, 83790.7 bytes/sec 
msecs/connect: 41.6647 mean, 56.156 max, 38.21 min 
msecs/first-response: 320.207 mean, 508.958 max, 179.308 min 
HTTP response codes: 

code 200 - 19 


测试 的 结果 很 容易 理解 ， 只 是 简单 地 输出 了 请 求 的 统计 信息 。 下 面 是 另外 一 个 稍微 复杂 
的 测试 ， 还 是 尽 可 能 快 地 循环 请 求 给 定 的 URL 列表 ， 不 过 模拟 同时 有 五 个 并 发 用 户 在 
进行 请 求 : 


$ http load -parallel 5 -seconds 10 urls.txt 
94 fetches, 5 max parallel, 4.75565e+06 bytes, in 10.0005 seconds 
50592 mean bytes/connection 
9.39953 fetches/sec, 475541 bytes/sec . 
msecs/connect: 65.1983 mean, 169.991 max, 38.189 min 
msecs/first-response: 245.014 mean, 993.059 max, 99.646 min 
HTTP response codes: : 
code 200 - 94 


另外 ， 除 了 测试 最 快 的 速度 ， 也 可 以 根据 预 估 的 访问 请 求 率 (比如 每 秒 5 次 ) 来 做 压力 
模拟 测试 。 


$ http load -rate 5 -seconds 10 urls.txt 
48 fetches, 4 max parallel, 2.50104e+06 bytes, in 10 seconds 
52105 mean bytes/connection 
4.8 fetches/sec, 250104 bytes/sec 
msecs/connect: 42.5931 mean, 60.462 max, 38.117 min 
msecs/first-response: 246.811 mean, 546.203 max, 108.363 min 
HTTP response codes: 

code 200 - 48 


最 后 ， 还 可 以 模拟 更 大 的 负载 ， 可 以 将 访问 请 求 率 提高 到 每 秒 20 次 请 求 。 请 注意 ， 连 
接 和 请 求 响应 时 间 都 会 随 着 负载 的 提高 而 增加 。 
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$ http_load -rate 20 -seconds 10 urls.txt 
111 fetches, 89 max parallel, 5.91142e+06 bytes, in 10.0001 seconds 
53256.1 mean bytes/connection . 
11.0998 fetches/sec, 591134 bytes/sec 
msecs/connect: 100.384 mean, 211.885 max, 38.214 min 
msecs/first-response: 2163.51 mean, 7862.77 max, 933.708 min 
HTTP response codes: | 
code 200 -- 111 


2.5.2 MySQL 基准 测试 套件 

MySQL 基准 测试 套件 (MySQL Benchmark Suite) 由 一 组 基于 Perl 开发 的 基准 测试 工具 
组 成 。 在 MySQL 安装 目录 下 的 sql-bench 子 目录 中 包含 了 该 工具 。 比 如 在 Debian GNU/ 
Linux 系统 上 ， 默 认 的 路 径 是 /usr/share/mysql/sql-bench。 


在 用 这 个 工具 集 测 试 前 ， 应 该 读 一 下 README 文件 ， 了 解 使 用 方法 和 命令 行 参 数 说 明 。 
如 有 果 要 运行 全 部 测试 ， 可 以 使 用 如 下 的 命令 : 

$ cd /usr/share/mysql/sql-bench/ 

sql-bench$ ./run-all-tests --server=mysql --user=root --log --fast 

Test finished. You can find the result in: 

output/RUN-mysql fast-Linux 2.4.18 686 smp i686 
运行 全 部 测试 需要 比较 长 的 时 间 ， 有 可 能 会 超过 一 个 小 时 ， 其 具体 长 短 依赖 于 测试 的 硬 
件 环境 和 配置 。 如 果 指 定 了 --1og 命令 行 ， 则 可 以 监控 到 测试 的 进度 。 测 试 的 结果 都 保 
存在 output 子 目录 中 ， 每 项 测试 的 结果 文件 中 都 会 包含 一 系列 的 操作 计时 信息 。 下 面 是 
一 个 具体 的 例子 ， 为 方便 印刷 ， 部 分 格式 做 了 修改 。 


sql-bench$ tail -5 output/select-mysql fast-Linux 2.4.18 686 smp i686 
Time for count distinct group on key (1000:6000): 

34 wallclock secs ( 0.20 usr 0.08 sys + 0.00 cusr 0.00 csys = 0.28 CPU) 
Time for count distinct group on key parts (1000:100000): 

34 wallclock secs ( 0.57 usr 0.27 sys + 0.00 cusr 0.00 csys = 0.84 CPU) 
Time for count_distinct_group (1000:100000): 

34 wallclock secs ( 0.59 usr 0.20 sys + 0.00 cusr 0.00 csys = 0.79 CPU) 
Time for count_distinct_big (100:1000000): 

8 wallclock secs ( 4.22 usr 2.20 sys + 0.00 cusr 0.00 csys = 6.42 CPU) 
Total time: 

868 wallclock secs (33.24 usr 9.55 sys + 0.00 cusr 0.00 csys = 42.79 CPU) 


如 上 所 示 ，count distinct group_ on key(1000:6000) 测试 花费 了 34 £b (wallclock secs), 
这 是 客户 端 运行 测试 花费 的 总 时 间 ， 其 他 值 (包括 usr, sys, cursr, csys) 则 占 了 测 
试 的 0.28 秒 的 开销 ， 这 是 运行 客户 端 测试 代码 所 花费 的 时 间 ， 而 不 是 等 竺 MySQL 服务 
器 啊 应 的 时 间 。 而 测试 者 真正 需要 关心 的 测试 结果 ， 是 除去 客户 端 控 制 的 部 分 ， 即 实际 
运行 时 间 应 该 是 33.72 秒 。 


除了 运行 全 部 测试 集 外 ， 也 可 以 选择 单独 执行 其 中 的 部 分 测试 项 。 例 如 可 以 选择 只 执行 
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insert 测试 ， 这 会 比 运行 全 部 测试 集 所 得 到 的 汇总 信息 给 出 更 多 的 详细 信息 : 


sql-bench$ ./test-insert 
Testing server ‘MySQL 4.0.13 log’ at 2003-05-18 11:02:39 


Testing the speed of inserting data into 1 table and do some selects on it. 
The tests are done with a table that has 100000 rows. 


Generating random keys 
Creating tables 
Inserting 100000 rows in order 
Inserting 100000 rows in reverse order 
Inserting 100000 rows in random order 
Time for insert (300000): 
42 wallclock secs ( 7.91 usr 5.03 sys + 0.00 cusr 0.00 csys = 12.94 CPU) 
Testing insert of duplicates 
Time for insert_duplicates (100000): 
16 wallclock secs ( 2.28 usr 1.89 sys + 0.00 cusr 0.00 csys = 4.17 CPU) 


2.5.3 sysbench 

sysbench 可 以 执行 多 种 类 型 的 基准 测试 ， 它 不 仅 设计 用 来 测试 数据 库 的 性 能 ， 也 可 以 
测试 运行 数据 库 的 服务 器 的 性 能 。 实 际 上 ，Peter 和 Vadim 最 初 设计 这 个 工具 是 用 来 执 
ÍT MySQL 性 能 测试 的 (尽管 并 不 能 完成 所 有 的 MySQL 基准 测试 )。 下 面 先 演 示 一 些 非 
MySQL 的 测试 场景 ， 来 测试 各 个 子 系统 的 性 能 ， 这 些 测试 可 以 用 来 评估 系统 的 整体 性 
能 瓶颈 。 后 面 再 演示 如 何 测试 数据 库 的 性 能 。 


强烈 建议 大 家 都 能 熟悉 sysbench 测试 ， 在 MySQL 用 户 的 工具 包 中 ， 这 应 该 是 最 有 用 
的 工具 之 一 。 尽 管 有 其 他 很 多 测试 工具 可 以 替代 sysbench 的 某 些 功 能 ， 但 那些 工具 有 
时 候 并 不 可 靠 ， 获 得 的 结果 也 不 一 定 和 MySQL 性 能 相关 。 例 如 ，L/O 性 能 测试 可 以 用 
iozone, bonnie++ 等 一 系列 工具 ， 但 需要 注意 设计 场景 ， 以 便 可 以 模拟 InnoDB 的 磁盘 
IO 模式 。 而 sysbench 的 IO 测试 则 和 InnoDB 的 VO 模式 非常 类 似 ， 所 以 fileio 选项 是 非 
常 好 用 的 。 


sysbench 的 CPU 基准 测试 
最 典型 的 子 系统 测试 就 是 CPU 基准 测试 。 该 测试 使 用 64 位 整数 ， 测 试 计算 素数 直到 某 


个 最 大 值 所 需要 的 时 间 。 下面 的 例子 将 比较 两 台 不 同 的 GNU/Linux 服务 左上 的 测试 结果 。 
第 一 台 机 器 的 CPU 配置 如 下 : i 


[server1 ~]$ cat /proc/cpuinfo 


model name : AMD Opteron(tm) Processor 246 
stepping :1 

cpu MHz : 1992.857 

cache size : 1024 KB 
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在 这 人 台 服 务 器 上 运行 如 下 的 测试 : 


[server1 ~]$ sysbench --test=cpu --cpu-max-prime=20000 run 
sysbench v0.4.8: multithreaded system evaluation benchmark 


Test execution summary: total time: 121.7404s 
二 台 服 务 器 配置 了 不 同 的 CPU : 
[server2 ~]$ cat /proc/cpuinfo 
model name : Intel(R) Xeon(R) CPU 5130 @ 2.00GHz 
stepping : 6 
cpu MHz > 1995.005 
测试 结果 如 下 : 


[server1 ~]$ sysbench --test=cpu --cpu-max-prime=20000 run 
sysbench v0.4.8: multithreaded system evaluation benchmark 


Test execution summary : total time: 61.8596s 


测试 的 结果 人 简单 打印 出 了 计算 出 素数 的 时 间 ， 很 容易 进行 比较 。 在 上 面 的 测试 中 ， 第 二 
台 服 务 器 的 测试 结果 显示 比 第 一 台 快 两 倍 。 


sysbench 的 文件 I/O 基准 测试 

文件 VO (fileio) 基准 测试 可 以 测试 系统 在 不 同 VO 负载 下 的 性 能 。 这 对 于 比较 不 同 的 
硬盘 驱动 器 、 不 同 的 RAID 卡 、 不 同 的 RAID 模式 ， 都 很 有 帮助 。 可 以 根据 测试 结果 来 
调整 VO FAB. MF VO 基准 测试 模拟 了 很 多 InnoDB 的 IO 特性 。 


测试 的 第 一 步 是 准备 (prepare) 阶段 ， 生 成 测试 用 到 的 数据 文件 ， 生 成 的 数据 文件 至 少 
要 比 内 存 大 。 如 果 文 件 中 的 数据 能 完全 放 入 内 存 中 ， 则 操作 系统 缓存 大 部 分 的 数据 ， 导 
致 测试 结果 无 法 体现 VO 密集 型 的 工作 负载 。 首 先 通过 下 面 的 命令 创建 一 个 数据 集 : 


$ sysbench --test=fileio --file-total-size=150G prepare 


这 个 命令 会 在 当前 工作 目录 下 创建 测试 文件 ， 后 续 的 运行 (run) 阶段 将 通过 读 写 这 些 文 
件 进 行 测试 。 第 二 步 就 是 运行 (run) 阶段 ， 针 对 不 同 的 IO 类 型 有 不 同 的 测试 选项 : 


seqwr 
顺序 写 入 。 
seqrewr 


顺序 重 写 。 
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seqrd 


顺序 读 取 。 
rndrd 


随机 读 取 。 


rndwr 


随机 写 入 。 


rdnrw 


混合 随机 读 / 写 。 
下 面 的 命令 运行 文件 VO 混合 随机 读 / 写 基准 测试 : 


$ sysbench --test=fileio --file-total-size=150G --file-test-mode=rndrw/ 
--init-rng=on --max-time=300 --max-requests=0 run 


结果 如 下 : 


sysbench v0.4.8: multithreaded system evaluation benchmark 


Running the test with following options: 
Number of threads: 1 
Initializing random number generator from timer. 


Extra file open flags: 0 

128 files, 1.1719Gb each 

150Gb total file size 

Block size 16Kb 

Number of random requests for random IO: 10000 
Read/Write ratio for combined random IO test: 1.50 
Periodic FSYNC enabled, calling fsync() each 100 requests. 
Calling fsync() at the end of test, Enabled. 

Using synchronous I/O mode 

Doing random r/w test 

Threads started! 

Time limit exceeded, exiting... 

Done. 


Operations performed: 40260 Read, 26840 Write, 85785 Other = 152885 Total 
Read 629.06Mb Written 419.38Mb Total transferred 1.0239Gb (3.4948Mb/sec) 
223.67 Requests/sec executed 


Test execution summary: 
total time: 300.0004s 
total number of events: 67100 
total time taken by event execution: 254.4601 
per-request statistics: 
min: 0.0000s 
avg: 0.0038s 
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max: 0.5628s 
approx. 95 percentile: 0.0099s 


Threads fairness: 
events (avg/stddev): 67100.0000/0.00 
execution time (avg/stddev): 254.4601/0.00 


输出 结果 中 包含 了 大 量 的 信息 。 和 LI/O 子 系统 密切 相关 的 包括 每 秒 请 求 数 和 总 吞吐 量 。 
在 上 述 例子 中 ， 每 秒 请 求 数 是 223.67 Requests/sec, FERE 3.4948MB/sec, BH, Ht 
闻 信 息 也 非常 有 用 , 尤其 是 大 约 95% 的 时 间 分 布 。 这 些 数 据 对 于 评估 磁盘 性 能 十 分 有 用 。 


测试 完成 后 ， 运 行 清除 (cleanup) 操作 删除 第 一 步 生成 的 测试 文件 : 


$ sysbench --test=fileio --file-total-size=150G cleanup 


sysbench 的 OLTP 基准 测试 


OLTP 基准 测试 模拟 了 一 个 简单 的 事务 处 理 系 统 的 工作 负载 。 下 面 的 例子 使 用 的 是 一 张 
超过 百 万 行 记录 的 表 ， 第 一 步 是 先生 成 这 张 表 : 


$ sysbench --test=oltp --oltp-table-size=1000000 --mysql-db=test/ 
--mysql-user=root prepare 
sysbench v0.4.8: multithreaded system evaluation benchmark 


No DB drivers specified, using mysql 
Creating table ‘sbtest'... 
Creating 1000000 records in table ‘sbtest’... 


生成 测试 数据 只 需要 上 面 这 条 简单 的 命令 即 可 。 接 下 来 可 以 运行 测试 ， 这 个 例子 采用 了 


$ sysbench --test=oltp --oltp-table-size=1000000 --mysql-db=test --mysql-user=root/ 
~-max-time=60 --oltp-read-only=on --max-requests=0 --num-threads=8 run 
sysbench v0.4.8: multithreaded system evaluation benchmark 


No DB drivers specified, using mysql 

WARNING: Preparing of "BEGIN" is unsupported, using emulation 
(last message repeated 7 times) 

Running the test with following options: 

Number of threads: 8 


Doing OLTP test. 

Running mixed OLTP test 

Doing read-only test 

Using Special distribution (12 iterations, 1 pct of values are returned in 75 pct 
cases) 

Using "BEGIN" for starting transactions 

Using auto_inc on the id column 

Threads started! 

Time limit exceeded, exiting... 
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(last message repeated 7 times) 
Done. 


OLTP test statistics: 

queries performed: - 

read: 

write: 

other: 

total: 
transactions: 
deadlocks: 
read/write requests: 
.Other operations: 


Test execution summary: 


179606 

0 

25658 

205264 

12829 (213.07 per sec.) 
0 (0.00 per sec.) 
179606 (2982.92 per sec.) 
25658 (426.13 per sec.) 


total time: 60.21145 

total number of events: 12829 

total time taken by event execution: 480.2086 

per-request statistics: 
min: 0.0030s 
avg: 0.0374s 
max: 1.9106s 
approx. 95 percentile: 0.11635 

Threads fairness: 
events (avg/stddev): 1603.6250/70.66 
execution time (avg/stddev): 60.0261/0.06 


如 上 所 示 ， 结 果 中 包含 了 相当 多 的 信息 。 其 中 最 有 价值 的 信息 如 下 : 


。 每 秒 事务 数 。 


e 时间 统 计 信 息 (最 小 、 平 均 、 最 大 响应 时 间 ， 以 及 95% 百分比 响应 时 间 )。 
© 线程 公平 性 统计 信息 (thread-fairness) ， 用 于 表示 模拟 负载 的 公平 性 。 


这 个 例子 使 用 的 是 sysbench 的 第 4 版 ， 在 SourceForge.net 可 以 下 载 到 这 个 版 本 的 编译 好 
的 可 执行 文件 。 也 可 以 从 Launchpad 下 载 最 新 的 第 5 版 的 源 代 码 自 行 编译 (这 是 一 件 简 单 、 
有 用 的 事情 )， 这 样 就 可 以 利用 很 多 新 版 本 的 特性 ， 包 括 可 以 基于 多 个 表 而 不 是 单个 表 
进行 测试 ， 可 以 每 隔 一 定 的 间隔 比如 10 秒 打印 出 吞吐 量 和 响应 的 结果 。 这 些 指标 对 于 


理解 系统 的 行为 非常 重要 。 


sysbench 的 其 他 特性 
sysbench 还 有 一 些 其 他 的 基准 测试 ， 但 和 数据 库 性 能 没有 直接 关系 。 
AË (memory) 

测试 内 存 的 连续 读 写 性 能 。 
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线程 (thread) 

测试 线程 调度 器 的 性 能 。 对 于 高 负载 情况 下 测试 线程 调度 器 的 行为 非常 有 用 。 

互 斥 锁 (mutex) | 
测试 互 斥 锁 (mutex) 的 性 能 ， 方 式 是 模拟 所 有 线程 在 同一 时 刻 并 发 运行 ， 并 都 短暂 
aR aR ( 互 斥 锁 mutex 是 一 种 数据 结构 ， 用 来 对 某 些 资源 进行 排他 性 访问 控制 ， 
防止 因 并 发 访问 导致 问题 )。 

顺序 写 (seqwr) 
测试 顺序 写 的 性 能 。 这 对 于 测试 系统 的 实际 性 能 瓶颈 很 重要 。 可 以 用 来 测试 RAID 
控制 器 的 高 速 缓存 的 性 能 状况 ， 如 果 测 试 结果 异常 则 需要 引起 重视 。 例 如 ， 如 果 
RAID 控制 器 写 缓存 没有 电池 保护 ， 而 磁盘 的 压力 达到 了 3 000 次 请 求 / 秒 ， 就 是 一 
个 问题 ， 数 据 可 能 是 不 安全 的 。 


男 外 ， 除 了 指定 测试 模式 参数 (--test) 外 ，sysbench 还 有 其 他 很 多 参数 ， 比 如 --num 
-threads, --max-requests 和 --max-time 参数 ， 更 多 信息 请 查阅 相关 文档 。 


2.5.4 数据 库 测试 套件 中 的 dbt2 TPC-C 测试 
数据 库 测 试 套件 (Database Test Suite) 中 的 dbt2 是 一 款 免 费 的 TPC-C 测试 工具 。 
TPC-C 是 TPC 组 织 发 布 的 一 个 测试 规范 ， 用 于 模拟 测试 复杂 的 在 线 事 务 处 理 系 统 
(OLTP)。 它 的 测试 结果 包括 每 分 钟 事务 数 (tpmC) ， 以 及 每 事务 的 成 本 (Price/tpmC). 
这 种 测试 的 结果 非常 依赖 硬件 环境 ， 所 以 公开 发 布 的 TPC-C 测试 结果 都 会 包含 具体 的 系 
统 硬件 配置 信息 。 
人 一 | dpbt2 并 不 是 真正 的 TPC-C 测试 ， 它 没有 得 到 TPC 组 织 的 认证 ， 它 的 结果 不 能 直接 
AS 4 ， 跟 TPC-C 的 结果 做 对 比 。 而 且 本 书 作者 开发 了 一 款 比 dbt2 更 好 的 测试 工具 ， 详 细 
4， 情况 见 2.5.5 节 。 


下 面 看 一 个 设置 和 运行 dpt2 基准 测试 的 例子 。 这 里 使 用 的 是 dbt2 0.37 版 本 ， 这 个 版 本 
能 够 支持 MySQL 的 最 新 版 本 (还 有 更 新 的 版 本 ， 但 包含 了 一 些 MySQL 不 能 提供 完全 
支持 的 修正 )。 下 面 是 测试 步 又 。 


1. 准备 测试 数据 。 
下 面 的 命令 会 在 指定 的 目录 创建 用 于 10 个 仓库 的 数据 。 每 个 仓库 使 用 大 约 700MB 
磁盘 空间 ， 测 试 所 需要 的 总 的 磁盘 空间 和 仓库 的 数量 成 正比 。 因 此 ， 可 以 通过 -w 参 
数 来 调整 仓库 的 个 数 以 生成 合适 大 小 的 数据 集 。 
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# src/datagen -w 10 -d /mnt/data/dbt2-w10 
warehouses = 10 

districts = 10 

customers = 3000 

items = 100000 

orders = 3000 

stock = 100000 

new orders = 900 


Output directory of data files: /mnt/data/dbt2-w10 


Generating data files for 10 warehouse(s)... 
Generating item table data... 

Finished item table data... 

Generating warehouse table data... 

Finished warehouse table data... 

Generating stock table data... 


2. 加 载 数据 到 MySQL 数据 库 。 
下 面 的 命令 创建 一 个 名 为 dbt2w10 的 数据 库 ， 并 且 将 上 一 步 生成 的 测试 数据 加 载 到 
数据 库 中 (-4 参数 指定 数据 库 ，-f 参数 指定 测试 数据 所 在 的 目录 )。 


# scripts/mysql/mysql load db.sh -d dbt2w10 -f /mnt/data/dbt2-w10/ 
-s /var/lib/mysql/mysql.sock 


3. 运行 测试 。 
最 后 一 步 是 运行 scripts 脚本 目录 中 的 如 下 命令 执行 测试 : 


# run_mysql.sh -c 10 -w 10 -t 300 -n dbt2w10/ 


-u root -o /var/lib/mysql/mysql.sock-e 
AE OK 2H aK Fe 2 2K a 2h 2 2 a 2 26 2 ak 2h 2 2 e 2 a E 2 a 2g 2 2 2g 24g 2K ie E k 2 k k 2K k k kk k k kk Kk kK kkk kk kk kk kkk kkk 


: DBT2 test for MySQL started * 
* 水 
Results can be found in output/9 directory 


AR A A A A A He A HE OK AR OE KE A A HK AE EH A OK AK A A AE HE k k kk kk kkk kk kkk HE OK kk kk HK I k 


Test consists of 4 stages: 


. Start of client to create pool of databases connections 

. Start of driver to emulate terminals and transactions generation 
。 Test 

. Processing of results 


mh wWwWN Pp 
* 关 关 关 KF KK 关 


* * *¥ 关 & 关 关 其 


AE I A AE HE EE A OE OK AE AE AK HE OK HE AE OK A HE OK A HE OK HE k k AE HEHE kkk kkk kkk OK EE OK kkk kkk k 


DATABASE NAME: dbt2w10 

DATABASE USER: root 

DATABASE SOCKET: /var/lib/mysql/mysql.sock 
DATABASE CONNECTIONS: 10 

TERMINAL THREADS: 100 

SCALE FACTOR(WARHOUSES): 10 

TERMINALS PER WAREHOUSE: | 10 

DURATION OF TEST(in sec): 300 

SLEEPY in (msec) 300 
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ZERO DELAYS MODE: 1 


Stage 1. Starting up client... 

Delay for each thread - 300 msec. Will sleep for 4 sec to start 10 database 
connections 

CLIENT PID = 12962 


Stage 2. Starting up driver... 

Delay for each thread - 300 msec. Will sleep for 34 sec to start 100 terminal 
threads 

All threads has spawned successfuly. 


Stage 3. Starting of the test. Duration of the test 300 sec 
Stage 4. Processing of results... 


Shutdown clients. Send TERM signal to 12962. 
Response Time (s) 


Transaction % Average : 90th % Total Rollbacks % 
Delivery 3.53 2.224 : 3.059 1603 0 0.00 

New Order 41.24 0.659 : 1.175 18742 172 0.92 
Order Status 3.86 0.684 : 1.228 1756 0 0.00 
Payment 39.23 0.644 : 1.161 17827 0 0.00 
Stock Level 3.59 0.652 : 1.147 1630 0 0.00 


3396.95 new-order transactions per minute (NOTPM) 
5.5 minute duration 

0 total unknown errors 

31 second(s) ramping up 


最 重要 的 结果 是 输出 信息 中 末尾 处 的 一 行 : 
3396.95 new-order transactions per minute (NOTPM) 


这 里 显示 了 系统 每 分 钟 可 以 处 理 的 最 大 事务 数 ， 越 大 越 好 (new-order 并 非 一 种 事务 类 型 
的 专用 术语 ， 它 只 是 表明 测试 是 模拟 用 户 在 假想 的 电子 商务 网 站 下 的 新 订单 )。 


通过 修改 某 些 参 数 可 以 定制 不 同 的 基准 而 试 。 


-C 
到 数据 库 的 连接 数 。 修 改 该 参数 可 以 模拟 不 同 程度 的 并 发 性 ,以 测试 系统 的 可 扩展 性 。 
-€e . 
BARIER (zero-delay) 模式 ， 这 意味 着 在 不 同 查询 之 间 没 有 时 间 延 迟 。 这 可 以 对 
数据 库 施加 更 大 的 压力 ， 但 不 符合 真实 情况 。 因 为 真实 的 用 户 在 执行 一 个 新 查询 前 
总 需要 一 个 “思考 时 间 (think time)”. 
-t 


基准 测试 的 持续 时 间 。 这 个 参数 应 该 精心 设置 ,否则 可 能 导致 测试 的 结果 是 无 意义 的 。 
”对 于 1/0 密集 型 的 基准 测试 ， 太 短 的 持续 时 间 会 导致 错误 的 结果 ， 因 为 系统 可 能 还 
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没有 足够 的 时 间 对 缓存 进行 预 热 。 而 对 于 CPU 密集 型 的 基准 测试 ， 这 个 时 间 又 不 应 
该 设置 得 太 长 ; 否则 生成 的 数据 量 过 大 ， 可 能 转变 成 IO 密集 型 。 


这 种 基准 测试 的 结果 ， 可 以 比 单纯 的 性 能 测试 提供 更 多 的 信息 。 例 如 ， 如 有 果 发 现 测 试 有 
很 多 的 回 滚 现象 ， 那 么 就 可 以 判定 很 可 能 什么 地 方 出 现 错误 了 。 


2.5.5 Percona 的 TPCC-MySQL 测试 工具 


尽管 sysbench 的 测试 很 简单 ， 并 且 结 果 也 具有 可 比 性 ， 但 毕 竞 无 法 模拟 真实 的 业务 压 
力 。 相 比 而 言 ，TPC-C 测试 则 能 模拟 真实 压力 。2.5.4 节 谈 到 的 dbt2 是 TPC-C 的 一 个 很 
好 的 实现 ， 但 也 还 有 一 些 不 足 之 处 。 为 了 满足 很 多 大 型 基准 测试 的 需求 ， 本 书 的 作者 重 
新 开发 了 一 款 新 的 类 TPC-C 测试 工具 ， 代 码 放 在 Launchpad 上 ， 可 以 通过 如 下 地 址 获 
RX : https://code.launchpad.net/~percona-dev/perconatools/tpcc-mysql, KPEE S—* 
README 文件 说 明了 如 何 编译 。 该 工具 使 用 很 简单 ， 但 测试 数据 中 的 仓库 数量 很 多 ， 可 
能 需要 用 到 其 中 的 并 行 数据 加 载 工 具 来 加 快 准备 测试 数据 集 的 速度 ， 否 则 这 一 步 会 花费 
很 长 时 间 。 


使 用 这 个 测试 工具 ， 需 要 创建 数据 库 和 表 结 构 、 加 载 数据 、 执 行 测 试 三 个 步骤 。 数 据 库 
和 表 结 构 通 过 包含 在 源码 中 的 SQL 脚本 创建 。 加 载 数 据 通过 用 C 写 的 加 cc_1oad 工 具 完 成 ， 
该 工具 需要 自行 编译 。 加 载 数据 需要 执行 一 段 时 间 ， 并 且 会 产生 大 量 的 输出 信息 (一般 
都 应 该 将 程序 输出 重 定 向 到 文件 中 , 这 里 尤其 应 该 如 此 , 否则 可 能 丢失 滚动 的 历史 信息 )。 
下 面 的 例子 显示 了 配置 过 程 ， 创 建 了 一 个 小 型 (五 个 仓库 ) 的 测试 数据 集 ， 数 据 库 名 为 
tpcc5, 


$ ./tpcc_load localhost tpcc5 username p4ssword 5 
2 2k 24 2 ok ye 2c 2 2 2k 2k 2c 2c 2 2c 2K k 2 2c E K 2 2k 2k 2k 2k 2 k kk k k kkk 


*** HitteasyiHHt TPC-C Data Loader *** 
2K 2K 2K 6 2 KK 2 EE KK OK KK ok 2K 2 2K k 2 k k k k k k kk KK 
<Parameters> 
[server]: localhost 
[port]: 3306 
[DBname]: tpcc5 
[user]: username 
[pass]: p4ssword 
[warehouse]: 5 
TPCC Data Load Started... 
Loading Item 


[output snipped for brevity] 


Loading Orders for D=10, W= 5 
Terre 1000 
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0 3000 
Orders Done. 


. e «DATA LOADING COMPLETED SUCCESSFULLY. 


然后 ， 使 用 tpcc_start 工具 开始 执行 基准 测试 。 其 同样 会 产生 很 多 输出 信息 ， 还 是 建议 
重 定向 到 文件 中 。 下 面 是 一 个 简单 的 示例 , 使 用 五 个 线程 操作 五 个 仓库 ，30 秒 预 热 时 间 ， 
30 秒 测试 时 间 : 


$ ./tpcc_start localhost tpcc5 username p4ssword 5 5 30 30 
ARIE A OK Kk k k 3k 2 K 2h 2 k aK AK AK K ok akk ak ok 2 ae afe 2K ok ake ok i ok ak ok 2K 


*** ###łeasy#łł TPC-C Load Generator *** 
AK OK OK KK 2K OK KK EE EE KK OK OK k kk k k KK KK KK KKK KK 
<Parameters> 
[server]: localhost 
[port]: 3306 
[DBname]: tpcc5 
[user]: username 
[pass]: p4ssword 
[warehouse]: 5 
[connection]: 5 
[rampup]: 30 (sec.) 
[measure]: 30 (sec.) 


RAMP-UP TIME.(30 sec. ) 
MEASURING START. 


10, 63(0):0.40, 63(0):0.42, 7(0):0.76, 6(0):2.60, 6(0):0.17 
20, 75(0):0.40, 74(0):0.62, 7(0):0.04, 9(0):2.38, 7(0):0.75 
30, 83(0):0.22, 84(0):0.37, 9(0):0.04, 7(0):1.97, 9(0):0.80 


STOPPING THREADS..... 
<RT Histogram> 


1.New-Order 
2.Payment 
3.Order-Status 
4.Delivery 
§.Stock-Level 


<90th Percentile RT (MaxRT)> 
New-Order : 0.37 (1.10) 
Payment : 0.47 (1.24) 
Order-Status : 0.06 (0.96) 
Delivery : 2.43 (2.72) 
Stock-Level : 0.75 (0.79) 


<Raw Results> 
[0] sc:221 lt:0 rt:0 fl:0 
[1] sc:221 lt:0 rt:0 fl:0 
[2] sc:23 lt:0 rt:0 fl:0 
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[3] sc:22 lt:0 rt:0 f1:0 
[4] sc:22 lt:0 rt:0 fl:o 
in 30 sec. 


<Raw Results2(sum ver. )> 
[0] sc:221 1lt:0 rt:0 fl:0 
[1] sc:221 lt:0 rt:0 fl:0 
[2] sc:23 lt:0 rt:0 f1:0 
[3] sc:22 1lt:0 rt:0 f1:0 
[4] sc:22 l1t:0 rt:0 f1:0 


<Constraint Check> (all must be [OK]) 
[transaction percentage] 
Payment: 43.42% (>=43.0%) [OK] 
Order-Status: 4.52% (>= 4.0%) [0K] 
Delivery: 4.32% (>= 4.0%) [0K] 
Stock-Level: 4.32% (>= 4.0%) [OK] 
[response time (at least 90% passed) ] 
New-Order: 100.00% [0K] 
Payment: 100.00% [OK] 
Order-Status: 100.00% [OK] 
Delivery: 100.00% [OK] 
Stock-Level: 100.00% [OK] 


<TpmC> 
442.000 TpmC 
最 后 一 行 就 是 测试 的 结果 : 每 分 钟 执行 完 的 事务 数 *"。 如 果 紧 挨 着 最 后 一 行 前 发 现 有 异 
常 结果 输出 ， 比 如 有 关于 约束 检查 的 信息 ， 那 么 可 以 检查 一 下 响应 时 间 的 直方 图 ， 或 者 
通过 其 他 详细 输出 信息 寻找 线索 。 当 然 ， 最 好 是 能 使 用 本 章 前 面 提 到 的 一 些 脚 本 ,这样 
就 可 以 很 容易 获得 测试 执行 期 间 的 详细 的 诊断 数据 和 性 能 数据 。 


2.6 BE 


每 个 MySQL HIE AS ABI SRR EE EMIS, REEMA A E A R RR 
务 问 题 的 一 种 实践 行动 ， 也 是 一 种 很 好 的 学 习 方 法 。 学 习 如 何 将 问题 分 解 成 可 以 通过 基 
准 测试 来 获得 答案 的 方法 ， 就 和 在 数学 课 上 从 文字 题目 中 推导 出 方程 式 一 样 。 首 先 正确 
地 描述 问题 ， 之 后 选择 合适 的 基准 测试 来 回答 问题 ， 设 置 基准 测试 的 持续 时 间 和 参数 ， 
运行 测试 ， 收 集 数 据 ， 分 析 结 果 数 据 ， 这 一 系列 的 训练 可 以 帮助 你 成 为 更 好 的 MySQL 
HP. 


如 果 你 还 没有 做 过 基准 测试 ， 那 么 建议 至 少 要 熟悉 sysbench。 可 以 先 学 习 如 何 使 用 oltp 
和 fileio MR. oltp 基准 测试 可 以 很 方便 地 比较 不 同系 统 的 性 能 。 另 一 方面 , 文件 系统 
和 磁盘 基准 测试 ， 则 可 以 在 系统 出 现 问题 时 有 效 地 诊断 和 隔离 异常 的 组 件 。 通 过 这 样 的 


注 11 : 我 们 是 在 笔记 本 电脑 上 运行 这 个 基准 测试 的 ， 这 只 是 作为 演示 用 的 。 真 实 服务 器 的 速度 肯定 比 这 
快 得 多 。 
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基准 测试 ， 我 们 多 次 发 现 了 一 些 数据 库 管 理 员 的 说 法 存在 问题 ， 比 如 SAN 存储 真 的 出 
现 了 一 块 坏 盘 ， 或 者 RAID 控制 器 的 缓存 策略 的 配置 并 不 是 像 工 具 中 显示 的 那样 。 通 过 
对 单 块 磁盘 进行 基准 测试 ， 如 果 发 现 每 秒 可 以 执行 14 000 次 随机 读 ， 那 要 么 是 碰 到 了 严 
重 的 错误 ， 要 么 是 配置 出 现 了 问题 =“。 


如 有 果 经 常 执行 基准 测试 ， 那 么 制定 一 些 原则 是 很 有 必要 的 。 选 择 一 些 合适 的 测试 工具 并 
深入 地 学 习 。 可 以 建立 一 个 脚本 库 ， 用 于 配置 基准 和 测试， 收集 输出 结果 、 系 统 性 能 和 状 
态 信 息 ， 以 及 分 析 结 果 。 使 用 一 种 熟练 的 绘图 工具 如 gnuplot RHR (不 用 浪费 时 间 使 
用 电子 表格 ， 它 们 既 笨 重 ， 速 度 又 慢 )。 尽 量 早 和 多 地 使 用 绘图 的 方式 ， 来 发 现 基准 测 
试 和 系统 中 的 问题 和 错误 。 你 的 眼睛 是 比 任何 脚本 和 自动 化 工具 都 更 有 效 的 发 现 问 题 的 
工具 。 


注 12 : 一 块 机 械 磁 瘟 每 秒 只 能 执行 几 百 次 的 随机 读 操作 ， 因 为 寻 道 操作 是 需要 时 间 的 。 
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第 3 章 


服务 右 性 能 剖析 


在 我 们 的 技术 咨询 生涯 中 ， 最 常 碰 到 的 三 个 性 能 相关 的 服务 请 求 是 : 如 何 确认 服务 器 是 ~- 


否 达 到 了 性 能 最 佳 的 状态 、 找 出 某 条 语句 为 什么 执行 不 够 快 , 以 及 诊断 被 用 户 描述 成 “ 停 
顿 、 堆 积 或 者 “ 卡 死 的 某 些 间歇 性 疑难 故障 。 本 章 将 主要 针对 这 三 个 问题 做 出 解答 。 
我 们 将 提供 一 些 工具 和 技巧 来 优化 整 机 的 性 能 、 优 化 单条 语句 的 执行 速度 ， 以 及 诊断 或 
者 解决 那些 很 难 观察 到 的 问题 (这 些 间 题 用 户 往往 很 难 知道 其 根源 ， 有 时 候 其 至 都 很 难 
察觉 到 它 的 存在 )。 | 


这 看 起 来 是 个 艰巨 的 任务 ， 但 是 事实 证 明 ， 有 一 个 简单 的 方法 能 够 从 噪声 中 发 现 苗 
头 。 这 个 方法 就 是 专注 于 测量 服务 器 的 时 间 花 费 在 哪里 ， 使 用 的 技术 则 是 性 能 剖析 
(profiling)。 在 本 章 ， 我 们 将 展示 如 何 测量 系统 并 生成 剖析 报告 ， 以 及 如 何 分 析 系 统 的 
整个 堆栈 (stack)， 包 括 从 应 用 程序 到 数据 库 服 务 器 到 单个 查询 。 


首先 我 们 要 保持 空 杯 精 神 ， 抛 弃 掉 一 些 关 于 性 能 的 常见 的 误解 。 这 有 一 定 的 难度 ， 下 面 
我 们 一 起 通过 一 些 例子 来 说 明 问 题 在 哪里 。 


3.1 性 能 优化 简介 


间 10 个 人 关于 性 能 的 问题 , 可 能 会 得 到 10 个 不 同 的 回答 , 比如 “每 秒 查 询 次 数 ”、“CPU 
利用 率 "、“ 可 扩展 性 ”之 类 。 这 其 实 也 没有 问题 ， 每 个 人 在 不 同 场 景 下 对 性 能 有 不 同 的 
理解 ， 但 本 章 将 给 性 能 一 个 正式 的 定义 。 我 们 将 性 能 定义 为 完成 某 件 任务 所 需要 的 时 间 
度量 ， 换 名 话说 ， 性 能 即 响 应 时 间 ， 这 是 一 个 非常 重要 的 原则 。 我 们 通过 任务 和 时 间 而 
不 是 资源 来 测量 性 能 。 数 据 库 服务 器 的 目的 是 执行 SQL 语句 ， 所 以 它 关 注 的 任务 是 查询 
或 者 语句 ， 如 SELECT, UPDATE, DELETE 等 兰 !。 数 据 库 服务 器 的 性 能 用 查询 的 响应 时 间 来 


注 1: 本 书 不 会 严格 区 分 查询 和 语句 ，DDL 和 DML 等 。 不 管 给 服务 器 发 送 什么 命令 ， 关 心 的 都 是 执行 
命令 的 速度 。 本 书 将 使 用 “查询 ”一 词 泛 指 所 有 发 送 给 服务 器 的 命令 。 
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度量 ， 单 位 是 每 个 查询 花费 的 时 间 。 


还 有 另外 一 个 问题 : 什么 是 优化 ?我们 暂时 不 讨论 这 个 问题 ， 而 是 假设 性 能 优化 就 是 在 
一 定 的 工作 负载 下 尽 可 能 地 降低 响应 时 间 。 


很 多 人 对 此 很 迷茫 。 假 如 你 认为 性 能 优化 是 降低 CPU 利用 率 ， 那 么 可 以 减少 对 资源 的 使 
用 。 但 这 是 一 个 陷阱 ， 资 源 是 用 来 消耗 并 用 来 工作 的 ， 所 以 有 时 候 消 耗 更 多 的 资源 能 够 
加 快 查询 速度 。 很 多 时 候 将 使 用 老 版 本 InnoDB 引擎 的 MySQL 升级 到 新 版 本 后 ，CPU 
利用 率 会 上 升 得 很 厉害 ， 这 并 不 代表 性 能 出 现 了 问题 ， 反 而 说 明 新 版 本 的 InnoDB 对 资 
源 的 利用 率 上 升 了 。 查 询 的 响应 时 间 则 更 能 体现 升级 后 的 性 能 是 不 是 变 得 更 好 。 版 本 升 
级 有 时 候 会 带 来 一 些 bug， 比 如 不 能 利用 某 些 索引 从 而 导致 CPU 利用 率 上 升 。CPU 利用 
率 只 是 一 种 现象 ， 而 不 是 很 好 的 可 度量 的 目标 。 


同样 ， 如 果 把 性 能 优化 仅仅 看 成 是 提升 每 秒 查 询 量 ， 这 其 实 只 是 吞吐 量 优化 。 吞 吐 量 的 
提升 可 以 看 作 性 能 优化 的 副产品 **。 对 查询 的 优化 可 以 让 服务 器 每 秒 执行 更 多 的 查询 ， 
因为 每 条 查询 执行 的 时 间 更 短 了 (吞吐 量 的 定义 是 单位 时 间 内 的 查询 数量 ， 这 正好 是 我 
们 对 性 能 的 定义 的 倒数 )。 


所 以 如 果 目 标 是 降低 响应 时 间 ， 那 么 就 需要 理解 为 什么 服务 器 执行 查询 需要 这 么 多 时 间 ， 
然后 去 减少 或 者 消除 那些 对 获得 查询 结果 来 说 不 必要 的 工作 。 也 就 是 说 ， 先 要 搞 清 楚 时 
间 花 在 哪里 。 这 就 引申 出 优化 的 第 二 个 原则 : 无 法 测量 就 无 法 有 效 地 优化 。 所 以 第 一 步 
应 该 测量 时 间 花 在 什么 地 方 。 


我 们 观察 到 , 很 多 人 在 优化 时 , 都 将 精力 放 在 修改 一 些 东 西 上 , 却 很 少 去 进行 精确 的 测量 。 
我 们 的 做 法 完全 相反 ， 将 花费 非常 多 ， 甚 至 90% 的 时 间 来 测量 响应 时 间 花 在 哪里 。 如 果 
通过 测量 没有 找到 答案 ， 那 要 么 是 测量 的 方式 错 了 ， 要 么 是 测量 得 不 够 完整 。 如 采 测 量 
了 系统 中 完整 而 且 正确 的 数据 ， 性 能 问题 一 般 都 能 暴露 出 来 ， 对 症 下 药 的 解决 方案 也 就 
比较 明了 。 测 量 是 一 项 很 有 挑战 性 的 工作 ， 并 且 分 析 结 有 果 也 同样 有 挑战 性 ， 测 出 时 间 花 
在 哪里 ， 和 知道 为 什么 花 在 那里 ， 是 两 码 事 。 


前 面 提 到 需要 合适 的 测量 范围 ， 这 是 什么 意思 呢 ? 合适 的 测量 范围 是 说 只 测量 需要 优化 
的 活动 。 有 两 种 比较 常见 的 情况 会 导致 不 合适 的 测量 : 


注 2: 本 书 尽量 避免 从 理论 上 来 阐述 性 能 优化 一 词 ， 如 果 有 兴趣 可 以 参考 阅读 另外 两 篇 文章 。 在 Percona 
的 网 站 (http:/Www.percona.com) 上 ， 有 一 篇 名 为 Goal-Driven Performance Optimization 的 白皮书 ， 
这 是 一 简 紧 次 的 快速 参考 页 。 另 外 一 简 是 Cary Millsap 的 Optimizing Oracle Performance (O’Reilly 
出 版 ) Cary MHRA, MAAR AL, & Oracle 世界 的 优化 黄金 定律 。 

注 3: 也 有 人 将 优化 定义 为 提升 吞吐 量 ， 这 也 没有 什么 问题 ， 但 本 书 采 用 的 不 是 这 个 定义 ， 因 为 我 们 认 
为 响应 时 间 惕 重要 ， 尽 管 吞吐 量 在 基准 测试 中 更 容易 测量 。 
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。 在 错误 的 时 间 启 动 和 停止 测量 。 
。 测量 的 是 聚合 后 的 信息 ， 而 不 是 目标 活动 本 身 。 


例如 ， 一 个 常见 的 错误 是 先 查 看 慢 查询 ， 然 后 又 去 排查 整个 服务 器 的 情况 来 判断 问题 在 
哪里 。 如 果 确 认 有 慢 查 询 ， 那 么 就 应 该 测量 慢 查询 ， 而 不 是 测量 整个 服务 器 。 测 量 的 应 
该 是 从 慢 查询 的 开始 到 结束 的 时 间 ， 而 不 是 查询 之 前 或 查询 之 后 的 时 间 。 


完成 一 项 任务 所 需要 的 时 间 可 以 分 成 两 部 分 : 执行 时 间 和 等 待 时 间 。 如 果 要 优化 任务 的 
执行 时 间 ， 最 好 的 办 法 是 通过 测量 定位 不 同 的 子 任务 花费 的 时 间 ， 然 后 优化 去 掉 一 些 子 
任务 、 降 低 子 任务 的 执行 频率 或 者 提升 子 任务 的 效率 。 而 优化 任务 的 等 待 时 间 则 相对 要 
复杂 一 些 ， 因 为 等 待 有 可 能 是 由 其 他 系统 间接 影响 导致 ， 任 务 之 间 也 可 能 由 于 争 用 磁盘 
或 者 CPU 资源 而 相互 影响 。 根 据 时 间 是 花 在 执行 还 是 等 待 上 的 不 同 ， 诊 断 也 需要 不 同 的 
工具 和 技术 。 


刚才 说 到 需要 定位 和 优化 子 任务 ， 但 只 是 一 笔 带 过 。 一 些 运行 不 频繁 或 者 很 短 的 子 任务 
对 整体 响应 时 间 的 影响 很 小 ， 通 稼 可 以 忽略 不 计 。 那 么 如 何 确认 哪些 子 任务 是 优化 的 目 
标 呢 ? 这 个 时 候 性 能 剖析 就 可 以 派 上 用 场 了 。 


如 何 判断 测量 是 正确 的 ? 


如 果 测 量 是 如 此 重要 , 那么 测量 错 了 会 有 什么 后 果 ? 实际 上 , 测量 经 常 都 是 错误 的 。 
对 数量 的 测量 并 不 等 于 数量 本 身 。 测 量 的 错误 可 能 很 小 ， 跟 实际 情况 区 别 不 大 ， 但 


错 的 终归 是 错 的 。 所 以 这 个 问题 其 实 应 该 是 : 测量 到 底 有 多 人 么 不 准确 ? ”这 个 问 
题 在 其 他 一 些 书 中 有 详细 的 讨论 ， 但 不 是 本 书 的 主题 。 但 是 要 意识 到 使 用 的 是 测量 
数据 ， 而 不 是 其 所 代表 的 实际 数据 。 通 常 来 说 ， 测 量 的 结果 也 可 能 有 多 种 模糊 的 表 
现 ， 这 可 能 导致 推断 出 错误 的 结论 。 





3.1.1 通过 性 能 剖析 进行 优化 
一 旦 掌 担 并 实践 面向 响应 时 间 的 优化 方法 ， 就 会 发 现 需 要 不 断 地 对 系统 进行 性 能 剖析 
(profiling) 。 


性 能 剖析 是 测量 和 分 析 时 间 花 费 在 哪里 的 主要 方法 。 性 能 剖析 一 般 有 两 个 步骤 : 测量 任 
务 所 花费 的 时 间 ;然后 对 结果 进行 统计 和 排序 ， 将 重要 的 任务 排 到 前 面 。 
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性 能 剖析 工具 的 工作 方式 基本 相同 。 在 任务 开始 时 局 动 计 时 器 ， 在 任务 结束 时 停止 计时 
器 ， 然 后 用 结束 时 间 减 去 启动 时 间 得 到 响应 时 间 。 也 有 些 工具 会 记录 任务 的 父 任 务 。 这 
些 结果 数据 可 以 用 来 绘制 调用 关系 图 ， 但 对 于 我 们 的 目标 来 说 更 重要 的 是 ， 可 以 将 相似 
的 任务 分 组 并 进行 汇总 。 对 相似 的 任务 分 组 并 进行 汇总 可 以 帮助 对 那些 分 到 一 组 的 任务 
做 更 复杂 的 统计 分 析 ， 但 至 少 需 要 知道 每 一 组 有 多 少 任务 ， 并 计算 出 总 的 响应 时 间 。 通 
过 性 能 剖析 报告 (profile report) 可 以 获得 需要 的 结果 。 性 能 剖析 报告 会 列 出 所 有 任务 列 
表 。 每 行 记 录 一 个 任务 ， 包 括 任 务 名 、 任 务 的 执行 时 间 、 任 务 的 消耗 时 间 、 任 务 的 平均 
执行 时 间 ， 以 及 该 任务 执行 时 间 占 全 部 时 间 的 百分比 。 性 能 剖析 报告 会 按照 任务 的 消耗 
时 间 进 行 降序 排序 。 


为 了 更 好 地 说 明 ， 这 里 举 一 个 对 整个 数据 库 服 务 器 工作 负载 的 性 能 剖析 的 例子 ， 主 要 输 
出 的 是 各 种 类 型 的 查询 和 执行 查询 的 时 间 。 这 是 从 整体 的 角度 来 分 析 啊 应 时 间 ， 后 面 会 
演示 其 他 角度 的 分 析 结 果 。 下 面 的 输出 是 用 Percona Toolkit 中 的 pt-query-digest (实际 
上 就 是 著名 的 Maatkit 工具 中 的 mk-query-digest) 分 析 得 到 的 结果 。 为 了 显示 方便 ， 对 
结果 做 了 一 些微 调 ， 并 且 只 截取 了 前 面 几 行 结 果 : 

Rank Response time Calls R/Call Item 


1 11256.3618 68.1% 78069 0.1442 SELECT InvitesNew 

2 2029.4730 12.3% 14415 0.1408 SELECT StatusUpdate 

3 1345.3445 8.1% 3520 0.3822 SHOW STATUS 
上 面 只 是 性 能 剖析 结果 的 前 几 行 ， 根 据 总 响应 时 间 进 行 排名 ， 只 包括 剖析 所 需要 的 最 小 
列 组 合 。 每 一 行 都 包括 了 查询 的 响应 时 间 和 占 总 时 间 的 百分比 、 查 询 的 执行 次 数 、 单 次 
执行 的 平均 响应 时 间 ， 以 及 该 查询 的 摘要 。 通 过 这 个 性 能 剖析 可 以 很 清楚 地 看 到 每 个 查 
询 相 互 之 间 的 成 本 比较 ， 以 及 每 个 查询 占 总 成 本 的 比较 。 在 这 个 例子 中 ， 任 务 指 的 就 是 
查询 ， 实 际 上 在 分 析 MySQL 的 时 候 经 常 都 指 的 是 查询 。 


我 们 将 实际 地 讨论 两 种 类 型 的 性 能 剖析 : 基于 执行 时 间 的 分 析 和 基于 等 待 的 分 析 。 基 于 
执行 时 间 的 分 析 研 究 的 是 什么 任务 的 执行 时 间 最 长 ， 而 基于 等 待 的 分 析 则 是 判断 任务 在 
什么 地 方 被 阻塞 的 时 间 最 长 。 


如 果 任 务 执行 时 间 长 是 因为 消耗 了 太 多 的 资源 且 大 部 分 时 间 花 费 在 执行 上 ， 等 待 的 时 间 
不 多 ， 这 种 情况 下 基于 等 待 的 分 析 作 用 就 不 大 。 反 之 亦 然 ， 如 采 任 务 一 直 在 等 待 ， 没有 
消耗 什么 资源 ， 去 分 析 执 行 时 间 就 不 会 有 什么 结果 。 如 采 不 能 确认 问题 是 出 在 执行 还 是 
等 待 上 ， 那 么 两 种 方式 都 需要 试 试 。 后 面 会 给 出 详细 的 例子 。 


事实 上 ， 当 基于 执行 时 间 的 分 析 发 现 一 个 任务 需要 花费 太 多 时 间 的 时 候 ， 应 该 深入 去 分 
析 一 下 ， 可 能 会 发 现 某 些 “执行 时 间 ” 实 际 上 是 在 等 待 。 例 如 ， 上 面 简单 的 性 能 剖析 的 
输出 显示 表 InvitesNew 上 的 SELECT 查询 花费 了 大 量 时 间 ， 如 果 深 入 研究 ， 则 可 能 发 现 
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时 间 都 花费 在 等 待 IO 完成 上 。 


在 对 系统 进行 性 能 剖析 前 ， 必 须 先 要 能 够 进行 测量 ， 这 需要 系统 可 测量 化 的 支持 。 可 测 
量 的 系统 一 般 会 有 多 个 测量 点 可 以 捕获 并 收集 数据 ,但 实际 系统 很 少 可 以 做 到 可 测量 化 。 
大 部 分 系统 都 没有 多 少 可 测量 点 ， 即 使 有 也 只 提供 一 些 活动 的 计数 ， 而 没有 活动 花费 
的 时 间 统 计 。MySQL 就 是 一 个 典型 的 例子 ， 直 到 版 本 5.5 才 第 一 次 提供 了 Performance 
Schema， 其 中 有 一 些 基于 时 间 的 测量 点 ,而 版 本 5.1 及 之 前 的 版 本 没有 任何 基于 时 间 
的 测量 点 。 能 够 从 MySQL 收集 到 的 服务 器 操作 的 数据 大 多 是 show status 计数器 的 形式 ， 
这 些 计数 器 统计 的 是 某 种 活动 发 生 的 次 数 。 这 也 是 我 们 最 终 决 定 创建 Percona Server 的 
主要 原因 ，Percona Server 从 版 本 5.0 开始 提供 很 多 更 详细 的 查询 级 别 的 测量 点 。 


虽然 理想 的 性 能 优化 技术 依赖 于 更 多 的 测量 点 ， 但 幸运 的 是 ， 即 使 系统 没有 提供 测量 点 ， 
也 还 有 其 他 办 法 可 以 展开 优化 工作 。 因 为 还 可 以 从 外 部 去 测量 系统 ， 如 果 测 量 失败 ， 也 
可 以 根据 对 系统 的 了 解 做 出 一 些 靠 谱 的 猜测 。 但 这 么 做 的 时 候 一 定 要 记 住 ， 不 管 是 外 部 
测量 还 是 猜测 ， 数 据 都 不 是 百分之百 准确 的 ， 这 是 系统 不 透明 所 带 来 的 风险 。 


举 个 例子 ， 在 Percona Server 5.0 中 ， 慢 查询 日 志 揭 露 了 一 些 性 能 低下 的 原因 ， 如 磁盘 IO 
等 待 或 者 行 级 锁 等 待 。 如 果 日 志 中 显示 一 条 查询 花费 10 秒 ， 其 中 9.6 秒 在 等 待 磁盘 VO, 
那么 追究 其 他 4% 的 时 间 人 花费 在 哪里 就 没有 意义 ， 磁 盘 IO 才 是 最 重要 的 原因 。 


3.1.2 理解 性 能 剖析 

MySQL 的 性 能 剖析 (profile) 将 最 重要 的 任务 展示 在 前 面 ， 但 有 了 时候 没 显示 出 来 的 信息 
也 很 重要 。 可 以 参考 一 下 前 面 提 到 过 的 性 能 剖析 的 例子 。 不 幸 的 是 ， 尽 管 性 能 剖析 输出 
了 排名 、 总 计 和 平均 值 ， 但 还 是 有 很 多 需要 的 信息 是 缺失 的 ， 如 下 所 示 。 


值得 优化 的 查询 (worthwhile query) 
性 能 剖析 不 会 自动 给 出 哪些 查询 值得 花 时 间 去 优化 。 这 把 我 们 带 回 到 优化 的 本 意 ， 
如 果 你 读 过 Cary Millsap 的 书 ， 对 此 就 会 有 更 多 的 理解 。 这 里 我 们 要 再 次 强调 两 点 : 
第 一 ， 一 些 只 占 总 响应 时 间 比 重 很 小 的 查询 是 不 值得 优化 的 。 根 据 阿 姆 达尔 定律 
(Amdahl’s Law) ， 对 一 个 占 总 响应 时 间 不 超过 5% 的 查询 进行 优化 ， 无 论 如 何 努 力 ， 
收益 也 不 会 超过 5%。 第 二 ， 如 果 花 费 了 1 000 美元 去 优化 一 个 任务 ,但 业务 的 收入 
没有 任何 增加 ， 那 么 可 以 说 反而 导致 业务 被 逆 优 化 了 1 000 美元 。 如 果 优 化 的 成 本 
大 于 收益 ， 就 应 当 停 止 优化 。 

异常 情况 
某 些 任务 即使 没有 出 现在 性 能 剖析 输出 的 前 面 也 需要 优化 。 比 如 某 些 任务 执行 次 数 
很 少 ， 但 每 次 执行 都 非常 慢 ， 严 重 影响 用 户 体验 。 因 为 其 执行 频率 低 ， 所 以 总 的 响 


注 4: MySQL5.5 的 Performance Schema 也 没有 提供 查询 级 别 的 细节 数据 ， 要 到 MySQL 5.6 TRI. 
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应 时 间 占 比 并 不 突出 。 
未 知 的 未 知 兰 5 o 
— are EREN LAA ERTAN “EAM”, EARR RERE ES A 
间 和 实际 测量 到 的 时 间 之 间 的 差 。 例 如 ， 如 果 处 理 器 的 CPU 时 间 是 10 秒 ， 而 剖析 
到 的 任务 总 时 间 是 9.7 秒 ， 那 么 就 有 300 毫秒 的 丢失 时 间 。 这 可 能 是 有 些 任务 没有 
测量 到 ， 也 可 能 是 由 于 测量 的 误差 和 精度 问题 的 缘故 。 如 果 工 具 发 现 了 这 类 问题 ， 
则 要 引起 重视 , 因为 有 可 能 错过 了 某 些 重要 的 事情 。 即 使 性 能 剖析 没有 发 现 委 失 时 间 ， 
也 需要 注意 考虑 这 类 问题 存在 的 可 能 性 ， 这 样 才 不 会 错过 重要 的 信息 。 我 们 的 例子 
中 没有 显示 丢失 的 时 间 ， 这 是 我 们 所 使 用 工具 的 一 个 局 限 性 。 
被 掩藏 的 细节 
性 能 剖析 无 法 显示 所 有 响应 时 间 的 分 布 。 只 相信 平均 值 是 非常 危险 的 ， 它 会 隐藏 很 
多 信息 ,而且 无 法 表达 全 部 情况 。Peter 经 常 举例 说 医院 所 有 病人 的 平均 体温 没有 任 
何 价值 许 。 假 如 在 前 面 的 性 能 剖析 的 例子 的 第 一 项 中 , 如 果 有 两 次 查询 的 响应 时 间 是 
1 秒 ， 而 另外 12 771 次 查询 的 响应 时 间 是 几 十 微 秒 ， 结 果 会 怎样 ? 只 从 平均 值 里 是 
无 法 发 现 两 次 1 秒 的 查询 的 。 要 做 出 最 好 的 决策 ， 需 要 为 性 能 剖析 里 输出 的 这 一 行 
中 包含 的 12 773 次 查询 提供 更 多 的 信息 , 尤其 是 更 多 响应 时 间 的 信息 ， 比 如 直方 图 、 
百分比 、 标 准 差 、 偏 差 指数 等 。 


好 的 工具 可 以 自动 地 获得 这 些 信息 。 实 际 上 ，pt-qguery-digest 就 在 剖析 的 结果 里 包含 了 
很 多 这 类 细节 信息 ， 并 且 输 出 在 剖析 报告 中 。 对 此 我 们 做 了 简化 ， 可 以 将 精力 集中 在 重 
要 而 基础 的 例子 上 : 通过 排序 将 最 昂贵 的 任务 排 在 前 面 。 本 章 后 面 会 展示 更 多 丰富 而 有 
用 的 性 能 剖析 的 例子 。 


在 前 面 的 性 能 剖析 的 例子 中 ， 还 有 一 个 重要 的 缺失 ， 就 是 无 法 在 更 高 层次 的 堆栈 中 进行 
交互 式 的 分 析 。 当 我 们 仅仅 着 眼 于 服务 器 中 的 单个 查询 时 ， 无 法 将 相关 查询 联 系 起 来 ， 
也 无 法 理解 这 些 查询 是 否 是 同一 个 用 户 交 互 的 一 部 分 。 性 能 剖析 只 能 管 中 疯 豹 ， 而 无 法 
将 剖析 从 任务 扩展 至 事务 或 者 页 面 查看 (page view) 的 级 别 。 也 有 一 些 办 法 可 以 解决 这 
”个 问题 ， 比 如 给 查询 加 上 特殊 的 注释 作为 标签 ， 可 以 标明 其 来 源 并 据 此 做 聚合 ， 也 可 以 
在 应 用 层面 增加 更 多 的 测量 把， 这 是 下 一 市 的 主题 。 


3.2 对 应 用 程序 进行 性 能 剖析 
对 任何 需要 消耗 时 间 的 任务 都 可 以 做 性 能 齐 析 ， 当 然 也 包括 应 用 程序 。 实 际 上 ， 剖 析 应 
用 程序 一 般 比 着 析 数 据 库 服务 器 容易 ， 而 且 回报 更 多 。 虽 然 前 面 的 演示 例子 都 是 针对 


注 5: ”在 此 向 Donald Rumsfeld 道 次 。 他 的 评论 尽管 听 起 来 可 笑 ， 但 实际 上 非常 有 见地 。 
注 6: H! (这 只 是 个 玩笑 ， 我 们 并 不 坚持 。) 
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MySQL 服务 器 的 剖析 ， 但 对 系统 进行 性 能 剖析 还 是 建议 自 上 而 下 地 进行 ， 这 样 可 以 追 
踪 自 用 户 发 起 到 服务 器 响应 的 整个 流程 。 虽 然 性 能 问题 大 多 数 情况 下 都 和 数据 库 有 关 ， 
但 应 用 导致 的 性 能 问题 也 不 少 。 性 能 瓶颈 可 能 有 很 多 影响 因素 : 


。 外 部 资源 ， 比 如 调用 了 外 部 的 Web 服务 或 者 搜索 引擎 。 

。 ”应 用 需要 处 理 大 量 的 数据 ， 比 如 分 析 一 个 超大 的 XML 文件 。 

。 在 循环 中 执行 昂贵 的 操作 ， 比 如 滥用 正则 表达 式 。 

。 ”使 用 了 低 效 的 算法 ， 比 如 使 用 暴力 搜索 算法 (naive search algorithm) 来 查找 列表 中 
的 项 。 


幸运 的 是 , 确定 MySQL 的 问题 没有 这 么 复杂 ,， 只 需要 一 款 应 用 程序 的 剖析 工具 即 可 〈 作 
为 回报 ,一 旦 拥有 这 样 的 工具 ， 就 可 以 从 一 开始 就 写 出 高 效 的 代码 )。 


建议 在 所 有 的 新 项 目 中 都 考虑 包含 性 能 剖析 的 代码 。 往 已 有 的 项 目 中 加 入 性 能 剖析 代码 
也 许 很 困难 ， 新 项 目 就 简单 一 些 。 


性 能 剖析 本 身 会 导致 服务 器 变 慢 吗 ? 


说 “是 的 ， 是 因为 性 能 剖析 确实 会 导致 应 用 慢 一 点 ; 说 “不 是 ， 是 因为 性 能 剖析 
可 以 帮助 应 用 运行 得 更 快 。 先 别 急 ， 下 面 就 解释 一 下 为 什么 这 么 说 。 


性 能 剖析 和 定期 检测 都 会 带 来 额外 开销 。 问 题 在 于 这 部 分 的 开销 有 多 少 ， 并 且 由 此 
获得 的 收益 是 否 能 够 抵消 这 些 开 销 。 


大 多 数 设 计 和 构建 过 高 性 能 应 用 程序 的 人 相信 ， 应 该 尽 可 能 地 测量 一 切 可 以 测量 的 
WA, 并 且 接 受 这 些 测 量 带 来 的 额外 开销 , 这 些 开 销 应 该 被 当成 应 用 程序 的 一 部 分 。 
Oracle 的 性 能 优化 大 师 Tom Kyte 曾 被 问 到 Oracle 中 的 测量 点 的 开销 , 他 的 回答 是 ， 
测量 点 至 少 为 性 能 优化 贡献 了 10%。 对 此 我 们 深 表 赞同 ， 而 且 大 多 数 应 用 并 不 需 
要 每 天 都 运行 详细 的 性 能 测量 ， 所 以 实际 贡献 其 至 要 超过 10%。 即 使 不 同意 这 个 
观点 ， 为 应 用 构建 一 些 可 以 永久 使 用 的 轻 量 级 的 性 能 剖析 也 是 有 意义 的 。 如 果 系 统 
没有 每 天 变化 的 性 能 统计 ， 则 碰 到 无 法 提前 预知 的 性 能 瓶颈 就 是 一 件 头 痛 的 事情 。 
发 现 问 题 的 时 候 ， 如 果 有 历史 数据 ， 则 这 些 历史 数据 价值 是 无 限 的 。 而 且 性 能 数据 
还 可 以 帮助 规划 好 硬件 采购 、 资 源 分 配 ， 以 及 预测 周期 性 的 性 能 尖峰 。 





27: ”我 们 将 在 后 面 展示 例子 ， 因 为 需要 有 一 些 先 验 知识 ， 这 个 问题 跟 底层 相关 ， 所 以 我 们 先 跳 过 自 顶 
向 下 的 方法 。 
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那么 何谓 “ 轻 量 级 ”的 性 能 剖析 ? 比如 可 以 为 所 有 SQL 语句 计 时 ， 加 上 脚本 总 时 
间 统 计 ， 这 样 做 的 代价 不 高 ， 而 且 不 需要 在 每 次 页 面 查看 (page view) 时 部 执行 。 
如 果 流 量 趋 势 比较 稳定 ， 随 机 采样 也 可 以 ， 随 机 采样 可 以 通过 在 应 用 程序 中 设置 实 
IL: 







<?php 
$profiling_enabled = rand(0, 100) > 99; 
?> 






这 样 只 有 1% 的 会 话 会 执行 性 能 采样 ， 来 帮助 定位 一 些 严 重 的 问题 。 这 种 策略 在 生 
产 环 境 中 尤其 有 用 ， 可 以 发 现 一 些 其 他 方法 无 法 发 现 的 问题 。 






几 年 前 在 写作 本 书 的 第 二 版 的 时 候 ， 流 行 的 Web 编程 语言 和 框架 中 还 没有 太 多 现成 的 性 
能 剖析 工具 可 以 用 于 生产 环境 ， 所 以 在 书 中 展示 了 一 段 示例 代码 ， 可 以 简单 而 有 效 地 复 
制 使 用 。 而 到 了 今天 ， 已 经 有 了 很 多 好 用 的 工具 ， 要 做 的 只 是 打开 工具 箱 ， 就 可 以 开始 
优化 性 能 。 


首先 ， 这 里 要 “兜售 ”的 一 个 好 工具 是 一 款 叫 做 New Relic 的 软件 即 服务 (software-as- 
a-service) 产品 。 声 明 一 下 我 们 不 是 “ 托 "， 我 们 一 般 不 会 推荐 某 个 特定 公司 或 产品 ， 但 
这 个 工具 真 的 非常 棒 ， 建 议 大 家 都 用 它 。 我 们 的 客户 借助 这 个 工具 ， 在 没有 我 们 帮助 的 
情况 下 ， 解 决 了 很 多 问题 ;即使 有 时 候 找 不 到 解决 办 法 ， 但 依然 能 够 帮助 定位 到 问题 。 
New Relic 会 插入 到 应 用 程序 中 进行 性 能 剖析 ， 将 收集 到 的 数据 发 送 到 一 个 基于 Web 的 
仪表 盘 ， 使 用 仪表 盘 可 以 更 容易 利用 面向 响应 时 间 的 方法 分 析 应 用 性 能 。 这 样 用 户 只 需 
要 考虑 做 那些 正确 的 事情 ， 而 不 用 考虑 如 何 去 做 。 而 且 New Relic 测量 了 很 多 用 户 体验 
HRA, WEM Web 训 览 器 到 应 用 代码 ， 再 到 数据 库 及 其 他 外 部 调用 。 


像 New Relic 这 类 工具 的 好 处 是 可 以 全 天 候 地 测量 生产 环境 的 代码 一 一 既 不 限于 测试 环 
境 ,也 不 限于 某 个 时 间 段 。 这 一 点 非常 重要 , 因为 有 很 多 剖析 工具 或 者 测量 点 的 代价 很 高 ， 
所 以 不 能 在 生产 环境 全 天 候 运 行 。 在 生产 环境 运行 ， 可 以 发 现 一 些 在 测试 环境 和 预 发 环 
境 无 法 发 现 的 性 能 问题 。 如 果 工 具 在 生产 环境 全 天 候 运 行 的 成 本 太 高 ， 那 么 至 少 也 要 在 
集群 中 找 一 台 服 务 器 运行 ， 或 者 只 针对 部 分 代码 运行 ， 原 因 请 参考 前 面 的 “性 能 剖析 本 
身 会 导致 服务 器 变 慢 吗 ? “。 


3.2.1 测量 PHP 应 用 程序 


如 果 不 使 用 New Relic， 也 有 其 他 的 选择 。 尤 其 是 对 PHP， 有 好 几 款 工具 都 可 以 帮助 进 
行 性 能 剖析 。 其 中 一 款 叫 做 xhprof (http://pecl.php.net/package/xhprof), ， 这 是 Facebook 
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开发 给 内 部 使 用 的 ， 在 2009 年 开源 了 。xhprof 有 很 多 高 级 特性 ， 并 且 易 于 安装 和 使 用 ， 
它 很 轻 量 级 ， 可 扩展 性 也 很 好 ， 可 以 在 生产 环境 大 量 部 署 并 全 天 候 使 用 ， 它 还 能 针对 函 
数 调用 进行 剖析 ， 并 根据 耗费 的 时 间 进 行 排 序 。 相 比 xhprof， 还 有 一 些 更 底层 的 工具 ， 
比如 xdebug、Valgrind 和 cachegrind, 可 以 从 多 个 角度 对 代码 进行 检测 生 。 有 些 工具 会 产 
生 大 量 输出 ， 并 且 开 销 很 大 ， 并 不 适合 在 生产 环境 运行 ， 但 在 开发 环境 却 可 以 发 挥 很 大 
的 作用 。 


下 面 要 讨论 的 另外 一 个 PHP 性 能 剖析 工具 是 我 们 自己 写 的 ， 基 于 本 书 第 二 版 的 代码 和 
原则 扩展 而 来 ， 名 叫 IfP (instrumentation-for-php) ， 代 码 托管 在 Goole Code 上 (http:// 
code.google.com/p/instrumentation-for-php/) . lfp #-7{& xhprof —FEXt PHP MAA MS , 
而 是 更 关注 数据 库 调 用 。 所 以 当 无 法 在 数据 库 层 面 进行 测量 的 时 候 ，Ifp 可 以 很 好 地 帮助 
应 用 剖析 数据 库 的 利用 率 。Ifp 是 一 个 提供 了 计数 器 和 计时 器 的 单 例 类 ， 很 容易 部 署 到 生 
产 环 境 中 ， 因 为 不 需要 访问 PHP 配置 的 权限 (对 很 多 开发 人 员 来 说 ， 都 没有 访问 PHP 
配置 的 权限 ， 所 以 这 一 点 很 重要 )。 


Ifp 不 会 自动 剖析 所 有 的 PHP 函数 ， 而 只 是 针对 重要 的 函数 。 例 如 ， 对 于 某 些 需 要 剖析 
的 地 方 要 用 到 自 定义 的 计数 器 ， 就 需要 手工 启动 和 停止 。 但 Ifp 可 以 自动 对 整个 页 面 的 
执行 进行 计时 ， 这 样 对 自动 测量 数据 库 和 和 memcached 的 调用 就 比较 简单 ， 对 于 这 种 情况 
就 无 须 手工 启动 或 者 停止 。 这 也 意味 着 ，Ifp 可 以 剖析 三 种 情况 : 应 用 程序 的 请 求 (如 
page Vview)、 数 据 库 的 查询 和 缓存 的 查询 。Ifp 还 可 以 将 计数 器 和 计时 器 输出 到 Apache， 
通过 Apache 可 以 将 结果 写 入 到 日 志 中 。 这 是 一 种 方便 且 轻 量 的 记录 结果 的 方式 。Ifp 不 
会 保存 其 他 数据 ， 所 以 也 不 需要 有 系统 管理 员 的 权限 。 


使 用 Ifp， 只 需要 简单 地 在 页 面 的 开始 处 调用 start_request()。 理 想 情况 下 ， 在 程序 的 
一 开始 就 应 当 调用 : 


require once('Instrumentation.php'); 
Instrumentation: :get instance()->start request(); 


这 段 代 码 注 册 了 一 个 shutdown 函数 ， 所 以 在 执行 结束 的 地 方 不 需要 再 做 更 多 的 处 理 。 


Ifp 会 自动 对 SQL 添加 注释 ,便于 从 数据 库 的 查询 日 志 中 更 灵活 地 分 析 应 用 的 情况 ， 通 
过 SHOW PROCESSLIST 也 可 以 更 清楚 地 知道 性 能 低 的 查询 出 自 何 处 。 大 多 数 情况 下 ， 定 位 
性 能 低下 查询 的 来 源 都 不 容易 ， 尤 其 是 那些 通过 字符 串 拼 接 出 来 的 查询 语句 ， 都 没有 办 
法 在 源 代码 中 去 搜索 。 那 么 Ifp 的 这 个 功能 就 可 以 帮助 解决 这 个 问题 ， 它 可 以 很 快 定位 
到 查询 是 从 何 处 而 来 的 ， 即 使 应 用 和 数据 库 中 间 加 了 代理 或 者 负载 均衡 层 ， 也 可 以 确认 
是 哪个 应 用 的 用 户 ， 是 哪个 页 面 请 求 ， 是 源 代码 中 的 哪个 函数 、 代 码 行 号 ， 黄 至 是 所 创 


注 8: 不 像 PHP， 大 部 分 其 他 编程 语言 都 有 一 些 内 建 的 剖析 功能 。 例 如 Ruby 可 以 使 用 -r HAR, Perl 则 可 
以 使 用 perl -d:DProf, ¥¥. 
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建 的 计数 器 的 键 值 对 。 下 面 是 一 个 例子 : 


-- File: index.php Line: 118 Function: fullCachePage request_id: ABC session id: XYZ 
SELECT * FROM ... 


如 何 测量 MySQL 的 调用 取决 于 连接 MySQL 的 接口 。 如 果 使 用 的 是 面向 对 象 的 mysqli 
接口 ， 则 只 需要 修改 一 行 代码 ;将 构造 函数 从 mysqli 改 为 可 以 自动 测量 的 mysgli_x 即 可 。 
mysqli x 构造 图 数 是 由 Ifp 提供 的 子 类 ， 可 以 在 后 台 测 量 并 改写 查询 。 如 果 使 用 的 不 是 
面 同 对 象 的 接口 ， 或 者 是 其 他 的 数据 库 访问 层 ， 则 和 需要 修改 更 多 的 代码 。 如 果 数 据 库 调 
用 不 是 分 散在 代码 各 处 还 好 ， 否 则 建议 使 用 集成 开发 环境 (IDE) 如 Eclipse， 这 样 修 改 
起 来 要 容易 些 。 但 不 管 从 哪个 方面 来 看 ， 将 访问 数据 库 的 代码 集中 到 一 起 都 可 以 说 是 最 
佳 实践 。 


Ifp 的 结果 很 容易 分 析 。Percona Toolkit 中 的 pt-query-digest 能 够 很 方便 地 从 查询 注释 中 
抽取 出 键 值 对 ， 所 以 只 需要 简单 地 将 查询 记录 到 MySQL 的 日 志文 件 中 ， 再 对 日 志文 件 
进行 处 理 即 可 。Apache 的 mod_log_config 模块 可 以 利用 Ifp 输出 的 环境 变量 来 定制 日 志 
输出 ， 其 中 的 宏 D 还 可 以 以 微 秒 级 记录 请 求 时 间 。 


也 可 以 通过 LOAD DATA INFILE + Apache 的 日 志 载 人 到 MySQL 数据 库 中 ， 然 后 通过 
SQL 进行 查询 。 在 Ifp 的 网 站 上 有 一 个 PDF 的 幻灯 片 ， 详 细 给 出 了 使 用 示例 ， 包 括 查询 
和 命令 行 参 数 都 有 。 


或 许 你 会 说 不 想 或 者 没 时 间 在 代码 中 加 入 测量 的 功能 ， 其 实 这 事 比 想象 的 要 容易 得 多 ， 
而 且 花 在 优化 上 的 时 间 将 会 由 于 性 能 的 优化 而 加 倍 地 回报 给 你 。 对 应 用 的 测量 是 不 可 替 
代 的 。 当 然 最 好 是 直接 使 用 New Relic、xhprof、Ifp 或 者 其 他 已 有 的 优化 工具 ， 而 不 必 
重新 去 发 明 “ 轮 子 。 





MySQL 企业 监控 器 的 查询 分 析 功 能 


MySQL 的 企业 监控 器 (Enterprise Monitor) 也 是 值得 考虑 的 工具 之 一 。 这 是 
Oracle 提供 的 MySQL 商业 服务 支持 中 的 一 部 分 。 它 可 以 捕获 发 送 给 服务 器 的 查询 ， 
要 么 是 通过 应 用 程序 连接 MySQL 的 库 文 件 实现 ， 要 么 是 在 代理 层 实现 (我们 并 不 
太 建 议 使 用 代理 层 ) 。 该 工具 有 设计 良好 的 用 户 界 面 ， 可 以 直观 地 显示 查询 的 剖析 
结果 ， 并 且 可 以 根据 时 间 段 进行 缩放 ， 例 如 可 以 选择 某 个 异常 的 性 能 尖峰 时 间 来 查 
看 状态 图 。 也 可 以 查看 EXPLAIN 出 来 的 执行 计划 ， 这 在 故障 诊断 时 非常 有 用 。 
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3.3 剖析 MySQL 查询 


AAEM A MAK, BASRE ADAM, SBA. WWE 
析 整 个 数据 库 服务 器 ， 这 样 可 以 分 析出 哪些 查询 是 主要 的 压力 来 源 (如 果 已 经 在 最 上 面 
的 应 用 层 做 过 剖析 ， 则 可 能 已 经 知道 哪些 查询 需要 特别 留意 ) 。 定 位 到 具体 需要 优化 的 
查询 后 ， 也 可 以 钻 取 下 去 对 这 些 查 询 进行 单独 的 剖析 ， 分 析 哪 些 子 任务 是 响应 时 间 的 主 
要 消耗 者 。 


3.3.1 剖析 服务 器 负载 

服务 器 端的 剖析 很 有 价值 ， 因 为 在 服务 器 端 可 以 有 效 地 审计 效率 低下 的 查询 。 定 位 和 优 
化 “ 坏 ” 查 询 能 够 显著 地 提升 应 用 的 性 能 ， 也 能 解决 某 些 特定 的 难题 。 还 可 以 降低 服务 
器 的 整体 压力 ， 这 样 所 有 的 查询 都 将 因为 减少 了 对 共享 资源 的 争 用 而 受益 (“间接 的 好 
处 ”)。 降 低 服 务 器 的 负载 也 可 以 推迟 或 者 避免 升级 更 昂贵 硬件 的 需求 ， 还 可 以 发 现 和 定 
位 糟糕 的 用 户 体验 ， 比 如 某 些 极端 情况 。 


MySQL 的 每 一 个 新 版 本 中 都 增加 了 更 多 的 可 测量 点 。 如 果 当 前 的 趋势 可 靠 的 话 ， 那 么 
在 性 能 方面 比较 重要 的 测量 需求 很 快 能 够 在 全 球 范围 内 得 到 支持 。 但 如 果 只 是 需要 剖析 
并 找 出 代价 高 的 查询 ， 就 不 需要 如 此 复杂 。 有 一 个 工具 很 早 之 前 就 能 帮 到 我 们 了 ， 这 就 
是 慢 查 询 日 志 。 


捕获 MySQL 的 查询 到 日 志文 件 中 

在 MySQL 中 ， 慢 查询 日 志 最 初 只 是 捕获 比较 “ 慢 ” 的 查询 ， 而 性 能 剖析 却 需 要 针对 所 
有 的 查询 。 而 且 在 MySQL 5.0 及 之 前 的 版 本 中 ， 慢 查询 日 志 的 响应 时 间 的 单位 是 秒 ， 粒 
度 太 粗 了 。 幸 运 的 是 ， 这 些 限 制 都 已 经 成 为 历史 了 。 在 MySQL 5.1 及 更 新 的 版 本 中 ， 慢 
日 志 的 功能 已 经 被 加 强 ， 可 以 通过 设置 Llong_query_time 为 0 来 捕获 所 有 的 查询 ， 而 且 
查询 的 响应 时 间 单 位 已 经 可 以 做 到 微 秒 级 。 如 果 使 用 的 是 Percona Server, AbA 5.0 版 本 
就 具备 了 这 些 特 性 ， 而 且 Percona Server 提供 了 对 日 志 内 容 和 查询 捕获 的 更 多 控制 能 力 。 


在 MySQL 的 当前 版 本 中 ， 慢 查询 日 志 是 开销 最 低 、 精 度 最 高 的 测量 查询 时 间 的 工具 。 
如 果 还 在 担心 开局 慢 查 询 日 志 会 带 来 额外 的 IO 开销 ， 那 大 可 以 放心 。 我 们 在 I/O 密集 
型 场景 做 过 基准 测试 ， 慢 查询 日 志 带 来 的 开销 可 以 忽略 不 计 (实际 上 在 CPU 密集 型 场景 
的 影响 还 稍微 大 一 些 )。 更 需要 担心 的 是 日 志 可 能 消耗 大 量 的 磁盘 空间 。 如 果 长 期 开启 
慢 查 询 日 志 ， 注 意 要 部 署 日 志 轮 转 (log rotation) 工具 。 或 者 不 要 长 期 启用 慢 查 询 日 志 ， 
只 在 需要 收集 负载 样本 的 期 间 开 启 即 可 。 


MySQL 还 有 另外 一 种 查询 日 志 ， 被 称 之 为 “通用 日 志 ”， 但 很 少 用 于 分 析 和 割 析 服务 器 
性 能 。 通 用 日 志 在 查 询 请 求 到 服务 器 时 进行 记录 ， 所 以 不 包含 啊 应 时 间 和 执行 计划 等 重 
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要 信息 。MySQL 5.1 之 后 支持 将 日 志 记 录 到 数据 库 的 表 中 ， 但 多 数 情况 下 这 样 做 没什么 
必要 。 这 不 但 对 性 能 有 较 大 影响 ， 而 且 MySQL 5.1 在 将 慢 查询 记录 到 文件 中 时 已 经 支持 
微 秒 级 别 的 信息 ， 然 而 将 慢 查 询 记录 到 表 中 会 导致 时 间 粒 度 退 化 为 只 能 到 秒 级 。 而 秒 级 
别 的 慢 查 询 日 志 没 有 太 大 的 意义 。 


Percona Server 的 慢 查 询 日 志 比 MySQL 官方 版 本 记录 了 更 多 细节 且 有 价值 的 信息 ， 如 
查询 执行 计划 、 锁 、I/O 活动 等 。 这 些 特性 都 是 随 着 处 理 各 种 不 同 的 优化 场景 的 需求 而 
慢 慢 加 进来 的 。 另 外 在 可 管理 性 上 也 进行 了 增强 。 比 如 全 局 修改 针对 每 个 连接 的 long_ 
query_time 的 国 值 ， 这 样 当 应 用 使 用 连接 池 或 者 持久 连接 的 时 候 ， 可 以 不 用 重 置 会 话 级 
别 的 变量 而 启动 或 者 停止 连接 的 查询 日 志 。 总 的 来 说 ， 慢 查询 日 志 是 一 种 轻 量 而 且 功 能 
全 面 的 性 能 剖析 工具 ， 是 优化 服务 器 查询 的 利器 。 


有 时 因为 某 些 原因 如 权限 不 足 等 ， 无 法 在 服务 器 上 记录 查询 。 这 样 的 限制 我 们 也 常常 碰 
到 ,所 以 我 们 开发 了 两 种 替代 的 技术 ,都 集成 到 了 Percona Toolkit 中 的 pt-query-digest 中 。 
第 一 种 是 通过 --processlist 选项 不 断 查看 SHOW FULL PROCESSLIST 的 输出 ， 记 录 查 询 第 
一 次 出 现 的 时 间 和 消失 的 时 间 。 某 些 情况 下 这 样 的 精度 也 足够 发 现 问 题 ， 但 却 无 法 捕 
获 所 有 的 查询 。 一 些 执行 较 快 的 查询 可 能 在 两 次 执行 的 间隙 就 执行 完成 了 ， 从 而 无 法 
捕获 到 。 


第 二 种 技术 是 通过 抓 取 TCP 网 络 包 ， 然 后 根据 MySQL 的 客户 端 / 服 务 端 通信 协议 进 
行 解析 。 可 以 先 通过 tcpdump 将 网 络 包 数据 保存 到 磁盘 ， 然 后 使 用 pt-query-digest 的 
--type=tcpdump 选项 来 解析 并 分 析 查 询 。 此 方法 的 精度 比较 高 ， 并 且 可 以 捕获 所 有 查 
询 。 还 可 以 解析 更 高 级 的 协议 特性 ， 比 如 可 以 解析 二 进 制 协议 ， 从 而 创建 并 执行 服务 端 
预 解 析 的 语句 (prepared statement) 及 压缩 协议 。 另 外 还 有 一 种 方法 ， 就 是 通过 MySQL 
Proxy 代理 层 的 脚本 来 记录 所 有 查询 ， 但 在 实践 中 我 们 很 少 这 样 做 。 


分 析 碍 询 日 志 

强烈 建议 大 家 从 现在 起 就 利用 慢 查 询 日 志 捕 获 服务 器 上 的 所 有 查询 ， 并 且 进 行 分 析 。 可 
以 在 一 些 典 型 的 时 间 窗 口 如 业务 高 峰 期 的 一 个 小 时 内 记录 查询 。 如 果 业 务 趋势 比较 均衡 ， 
那么 一 分 钟 甚至 更 短 的 时 间 内 捕获 需要 优化 的 低 效 查询 也 是 可 行 的 。 


不 要 直接 打开 整个 慢 查 询 日 志 进 行 分 析 ， 这 样 做 只 会 浪费 时 间 和 金钱。 首先 应 该 生成 一 
个 剖析 报告 ， 如 采 需 要 ， 则 可 以 再 查看 日 志 中 需要 特别 关注 的 部 分 。 自 顶 向 下 是 比较 好 
的 方式 ， 否 则 有 可 能 像 前 面 提 到 的 ， 反 而 导致 业务 的 逆 优 化 。 


从 慢 查 询 日 志 中 生成 剖析 报告 需要 有 一 款 好 工具 ， 这 里 我 们 建议 使 用 pt-query-digest, 


这 毫 无 疑问 是 分 析 MySQL 查询 日 志 最 有 力 的 工具 。 该 工具 功能 强大 ， 包 括 可 以 将 查询 
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报告 保存 到 数据 库 中 ， 以 及 追踪 工作 负载 随时 间 的 变化 。 


一 般 情 况 下 ， 只 需要 将 慢 查 询 日 志文 件 作为 参数 传递 给 pt-query-digest， 就 可 以 正确 地 
工作 了 。 它 会 将 查询 的 剖析 报告 打印 出 来 ， 并 且 能 够 选择 将 “重要 ”的 查询 逐条 打印 出 
更 详细 的 信息 。 输出 的 报告 细节 详尽 ,绝对 可 以 让 生活 更 美好 。 该 工具 还 在 持续 的 开发 中 ， 
因此 要 了 解 最 新 的 功能 请 阅读 最 新 版 本 的 文档 。 


这 里 给 出 一 份 pt-qguery-digest 输出 的 报告 的 例子 ， 作 为 进行 性 能 剖析 的 开始 。 这 是 前 面 
提 到 过 的 一 个 未 修改 过 的 剖析 报告 : 


# Profile 
# Rank Query ID Response time Calls R/Call V/M Item 


# 1 OxBFCF8E3F293F6466 11256.3618 68.1% 78069 0.1442 0.21 SELECT InvitesNew? 

# 2 Ox620B8CAB2B1C76EC 2029.4730 12.3% 14415 0.1408 0.21 SELECT StatusUpdate? 
# 3 OXB90978440CC11CC7 1345.3445 8.1% 3520 0.3822 0.00 SHOW STATUS 
# 
# 


OOOO 


4 0xCB73D6B5B031B4CF 1341.6432 8.1% 3509 0.3823 0.00 SHOW STATUS 
MISC OxMISC 560.7556 3.4% 23930 0.0234 0.0 <17 ITEMS> 
可 以 看 到 这 个 比 之 前 的 版 本 多 了 一 些 细 市 。 首 先 ， 每 个 查询 都 有 一 个 ID， 这 是 对 查询 语 
名 计算 出 的 哈 希 值 指纹 ， 计 算 时 去 掉 了 查询 条 件 中 的 文本 值 和 所 有 空格 ， 并 且 全 部 转化 
为 小 写字 母 (请 注意 第 三 条 和 第 四 条 语句 的 摘要 看 起 来 一 样 ， 但 哈 希 指纹 是 不 一 样 的 )。 
该 工具 对 表 名 也 有 类 似 的 规范 做 法 。 表 名 InvitesNew 后 面 的 问号 意味 着 这 是 一 个 分 片 
(shard) 的 表 ， 表 名 后 面 的 分 片 标识 被 问号 替代 ， 这 样 就 可 以 将 同一 组 分 片 表 作 为 一 个 
整体 做 汇总 统计 。 这 个 例子 实际 上 是 来 自 一 个 压力 很 大 的 分 片 过 的 Facebook 应 用 。 


报告 中 的 V/M 列 提 供 了 方差 均值 比 (variance-to-mean ratio) 的 详细 数据 ， 方 差 均 值 比 
也 就 是 常 说 的 离 差 指数 (index of dispersion)。 离 差 指数 高 的 查询 对 应 的 执行 时 间 的 变化 
较 大 ， 而 这 类 查询 通常 都 值得 去 优化 。 如 采 pt-query-digest 指定 了 --explain 选项 ， 输 出 
结果 中 会 增加 一 列 简 要 描述 查询 的 执行 计划 ， 执 行 计划 是 查询 背后 的 “ 极 客 代码 ”。 通 
过 联合 观察 执行 计划 列 和 V/M 列 ， 可 以 更 容易 识别 出 性 能 低下 需要 优化 的 查询 。 

最 后 ， 在 尾部 也 增加 了 一 行 输出 ， 显 示 了 其 他 17 个 占 比 较 低 而 不 值得 单独 显示 的 查询 
的 统计 数据 。 可 以 通过 --limit 和 --outliers 选项 指定 工具 显示 更 多 查询 的 详细 信息 ， 而 不 
是 将 一 些 不 重要 的 查询 汇总 在 最 后 一 行 。 默 认 只 会 打印 时 间 消 耗 前 10 位 的 查询 ， 或 者 
执行 时 间 超 过 1 秒 立 值 很 多 倍 的 查询 ， 这 两 个 限制 都 是 可 配置 的 。 

剖析 报告 的 后 面包 含 了 每 种 查询 的 详细 报告 。 可 以 通过 查询 的 ID 或 者 排名 来 匹配 前 面 
的 剖析 统计 和 查询 的 详细 报告 。 下 面 是 排名 第 一 也 就 是 “最 差 ” 的 查询 的 详细 报告 : 
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# Query 1: 24.28 QPS, 3.50x concurrency, ID OxBFCF8E3F293F6466 at byte 5590079 
# This item is included in the report because it matches --limit. 

# Scores: V/M = 0.21 

# Query time sparkline: | _^_.^ 

# Time range: 2008-09-13 21: 51: 55 to 22:45:30 

# Attribute pct total min max avg 95% stddev median 


# ============ === ======= ======= ======= ======= =====-=-= ======= ======= 
# Count 63 78069 

# Exec time 68 112565 37us 1s 144ms 501ms 175ms 68ms 
# Lock time 85 134s 0 650ms 2ms  176us 20ms 57us 
# Rows sent 8 70.18k 0 1 0.92 0.99 0.27 0.99 
# Rows examine 8 70.84k 0 3 0.93 0.99 0.28 0.99 
# Query size 84 10.43M 135 141 140.13 136.99 0.10 136.99 
# String: | 

# Databases production 

# Hosts 

# Users fbappuser 

# Query time distribution 

# ius 

# 10us # 

# 100us 9 #HBARHHHHHHEHHHHHHHHHHHHHEHH HE 

# ims Ht 


# 10ms  HHHHHHHHHHHHHHHEH 

# 100ms HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHEHHEHHHEHHHHHHHEEHEEE EH H HH HHHHHH 

# 1s # 

# 10s+ 

# Tables 

# SHOW TABLE STATUS FROM ‘production ` LIKE'InvitesNew82'\G 

# SHOW CREATE TABLE ‘production ~.* InvitesNew82'\G 

# EXPLAIN /*!50100 PARTITIONS*/ 

SELECT InviteId, InviterIdentifier FROM InvitesNew82 WHERE (InviteSetId = 87041469) 
AND (InviteeIdentifier = 1138714082) LIMIT 1\G 


[La4 > 查询 报告 的 顶部 包含 了 一 些 元 数据 ， 包 括 查 询 执行 的 频率 、 平 均 并 发 度 ， 以 及 该 查询 性 


能 最 差 的 一 次 执行 在 日 志文 件 中 的 字 市 偏 移 值 ， 接 下 来 还 有 一 个 表格 格式 的 元 数据 ， 包 
括 诸如 标准 差 一 类 的 统计 信息 “”。 


接 下 来 的 部 分 是 响应 时 间 的 直方 图 。 有 趣 的 是 ， 可 以 看 到 上 面 这 个 查询 在 Query time 
distribution 部 分 的 直方 图 上 有 两 个 明显 的 高 峰 ， 大 部 分 情况 下 执行 都 需要 几 百 毫 
秒 ， 但 在 快 三 个 数量 级 的 部 分 也 有 一 个 明显 的 尖峰 ， 几 百 微 秒 就 能 执行 完成 。 如 果 这 是 
Percona Server 的 记录 ， 那 么 在 查询 日 志 中 还 会 有 更 多 丰富 的 属性 ， 可 以 对 查询 进行 切 
片 分 析 到 底 发 生 了 什么 。 比 如 可 能 是 因为 查询 条 件 传递 了 不 同 的 值 ， 而 这 些 值 的 分 布 很 
不 均衡 ， 导 致 服务 器 选择 了 不 同 的 索引 ; 或 者 是 由 于 查询 缓存 命中 等 。 在 实际 系统 中 ， 
这 种 有 两 个 尖峰 的 直方 图 的 情况 很 少见 ， 尤 其 是 对 于 简单 的 查询 ， 查 询 越 简单 执行 计划 


在 细节 报告 的 最 后 部 分 是 方便 复制 、 粘 贴 到 终端 去 检查 表 的 模式 和 状态 的 语句 ， 以 及 完 


注 9: 这 里 已 经 是 尽 可 能 地 简化 描述 了 ， 实 际 上 Percona Serve 的 查询 日 志 报 告 会 包含 更 多 细节 信息 ， 可 
以 帮助 理解 为 什么 某 条 查询 花费 了 144ms 去 获取 一 行 数 据 ， 这 个 时 间 实 在 是 太 长 了 。 
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整 的 可 用 于 EXPLAIN 分 析 执 行 计 划 的 语句 。EXPLAIN 分 析 的 语句 要 求 所 有 的 条 件 是 文本 
值 而 不 是 “指纹 ”替代 符 ， 所 以 是 真正 可 直接 执行 的 语句 。 在 本 例 中 是 执行 时 间 最 长 的 
一 条 实际 的 查询 。 


确定 需要 优化 的 查询 后 ， 可 以 利用 这 个 报告 迅速 地 检查 查询 的 执行 情况 。 这 个 工具 我 们 
经 常 使 用 ， 并 且 会 根据 使 用 的 情况 不 断 进 行 修 正 以 帮助 提升 工具 的 可 用 性 和 效率 ， 强 列 
建议 大 家 都 能 熟练 使 用 它 。MySQL 本 身 在 未 来 或 许 也 会 有 更 多 复杂 的 测量 点 和 剖析 工 
有 具 ， 但 在 本 书写 作 时 ， 通 过 慢 查 询 日 志 记 录 查 询 或 者 使 用 pt-query-digest 分析 tcpdump 
的 结果 ， 是 可 以 找到 的 最 好 的 两 种 方式 。 


3.3.2 剖析 单条 查询 

在 定位 到 需要 优化 的 单条 查询 后 ， 可 以 针对 此 查询 “ 钻 取 ”更 多 的 信息 ， 确 认为 什么 会 
花费 这 么 长 的 时 间 执 行 ， 以 及 需要 如 何 去 优 化 。 关 于 如 何 优化 查询 的 技术 将 在 本 书后 续 
的 一 些 章节 讨论 ， 在 此 之 前 还 需要 介绍 一 些 相 关 的 背景 知识 。 本 章 的 主要 目的 是 介绍 如 
何方 便 地 测量 查询 执行 的 各 部 分 花费 了 多 少时 间 ， 有 了 这 些 数据 才能 决定 采用 何 种 优化 
技术 。 

不 幸 的 是 ，MySQL 目前 大 多 数 的 测量 点 对 于 剖析 查询 都 没有 什么 帮助 。 当 然 这 种 状况 
正在 改善 ， 但 在 本 书写 作 之 际 ， 大 多 数 生产 环境 的 服务 器 还 没有 使 用 包含 最 新 剖析 特性 
的 版 本 。 所 以 在 实际 应 用 中 ， 除 了 SHOW STATUS, SHOW PROFILE、 检 查 慢 查询 日 志 的 条 
E (这 还 要 求 必 须 是 Percona Server, HA MySQL 版 本 的 慢 查 询 日 志 缺 失 了 很 多 附加 信 
E) 这 三 种 方法 外 就 没有 什么 更 好 的 办 法 了 。 下 面 将 逐一 演示 如 何 使 用 这 三 种 方法 来 剖 
析 单条 查询 ， 看 看 每 一 种 方法 是 如 何 显示 查询 的 执行 情况 的 。 


使 用 SHOW PROFILE 
SHOW PROFILE 命令 是 在 MySQL 5.1 以 后 的 版 本 中 引入 的 ， 来 源 于 开源 社区 中 的 Jeremy 
Cole 的 贡献 。 这 是 在 本 书写 作 之 际 唯一 一 个 在 GA 版 本 中 包含 的 真正 的 查询 剖析 工具 。 
默认 是 禁用 的 ， 但 可 以 通过 服务 器 变量 在 会 话 (连接 ) 级 别 动态 地 修改 。 

mysql> SET profiling = 1; 
然后 ， 在 服务 器 上 执行 的 所 有 语句 ， 都 会 测量 其 耗费 的 时 间 和 其 他 一 些 查 询 执行 状态 变 
更 相关 的 数据 。 这 个 功能 有 一 定 的 作用 ， 而 且 最 初 的 设计 功能 更 强大 ， 但 未 来 版 本 中 可 
HEA tk Performance Schema 所 取代 。 尽 管 如 此 ， 这 个 工具 最 有 用 的 作用 还 是 在 语句 执行 
期 间 剖 析 服 务 器 的 具体 工作 。 


当 一 条 查询 提交 给 服务 器 时 ， 此 工具 会 记录 剖析 信息 到 一 张 临时 表 ， 并 且 给 查询 赋予 一 
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个 从 1 开始 的 整数 标识 符 。 下 面 是 对 Sakila HASHES RE © : 
mysql> SELECT * FROM sakila.nicer_but_slower_film list; 


[query results omitted] 
997 rows in set (0.17 sec) 


该 查询 返回 了 997 行 记录 ， 花 费 了 大 概 1/6 秒 。 下 面 看 一 下 SHOW PROFILES 有 什么 结果 : 


Wy a PROFILES; 


see meee ew aebe ew wwe wee ew ede we wr mew mem ewww ewe www ew eww eww nw ee wna moet ewe wee ew eee wee ww + 
| Query ID | Duration | Query | 
+---------- +------------+------------------------------------------------- + 
| 1 | 0.16767900 | SELECT * FROM sakila.nicer_but_slower film list | 
+----------+------------ +------------------------------------------------- + 


首先 可 以 看 到 的 是 以 很 高 的 精度 显示 了 查询 的 响应 时 间 ， 这 很 好 。MySQL 客户 端 显示 
的 时 间 只 有 两 位 小 数 ， 对 于 一 些 执行 得 很 快 的 查询 这 样 的 精度 是 不 够 的 。 下 面 继续 看 接 
下 来 的 输出 : 


mysql> SHOW PROFILE FOR QUERY 1; 


7210: 





82 


+---------------------- +---------- + 
| Status | Duration | 
+---------------------- +---------- + 
| starting | 0.000082 | 
| Opening tables | 0.000459 | 
| System lock | 0.000010 | 
| Table lock | 0.000020 | 
| checking permissions | 0.000005 | 
| checking permissions | 0.000004 | 
| checking permissions | 0.000003 | 
| checking permissions | 0.000004 | 
| checking permissions | 0.000560 | 
| optimizing | 0.000054 | 
| statistics | 0.000174 | 
| preparing | 0.000059 | 
| Creating tmp table | 0.000463 | 
| executing | 0.000006 | 
| Copying to tmp table | 0.090623 | 
| Sorting result | 0.011555 | 
| Sending data | 0.045931 | 
| removing tmp table | 0.004782 | 
| Sending data | 0.000011 | 
| init | 0.000022 | 
| optimizing | 0.000005 | 
| statistics | 0.000013 | 
| preparing | 0.000008 | 
| executing | 0.000004 | 
| ee data | 0.010832 | 
| end | 0.000008 | 
| query end | 0.000003 | 
| freeing items | 0.000017 | 
| removing tmp table | 0.000010 | 


整个 视图 太 长 ， 无 法 在 书 中 全 
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部 打印 出 来 ， 但 Sakila 数据 库 可 以 从 MySQL 网 站 上 下 载 到 。 


freeing items | 
removing tmp table | 
closing tables | 
logging slow query | 
logging slow query .| 0.000789 
cleaning up | 
+ 


0.000042 
0.001098 
0.000013 
0.000003 


0.000007 


剖析 报告 给 出 了 查询 执行 的 每 个 步骤 及 其 花费 的 时 间 ， 看 结果 很 难 快速 地 确定 哪个 步骤 
花费 的 时 间 最 多 。 因 为 输出 是 按照 执行 顺序 排序 ， 而 不 是 按 花费 的 时 间 排 序 的 一 一 而 实 
际 上 我 们 更 关心 的 是 花费 了 多 少时 间 ， 这 样 才 能 知道 哪些 开销 比较 大 。 但 不 幸 的 是 无 法 
通过 诸如 ORDER BY 之 类 的 命令 重新 排序 。 假 如 不 使 用 SHOW PROFILE 命令 而 是 直接 查询 
INFORMATION_SCHEMA 中 对 应 的 表 ， 则 可 以 按照 需要 格式 化 输出 : 


mysql> SET @query_id = 1; 
Query OK, O rows affected (0.00 sec) 


mysql> SELECT STATE, SUM(DURATION) AS Total R, 
->  ROUND( 


-> 
-> 
-> 
-> 
-> 


100 * SUM(DURATION) / 


(SELECT SUM(DURATION) 
FROM INFORMATION SCHEMA.PROFILING 
WHERE QUERY_ID = @query id 

), 2) AS Pct_R, 
->  COUNT(*) AS Calls, 
-> | SUM(DURATION) / COUNT(*) AS "R/Call" 
-> FROM INFORMATION SCHEMA. PROFILING 
-> WHERE QUERY_ID = @query_id 


-> GROUP BY STATE 
-> ORDER BY Total_R DESC; 

+---------------------- +---------- 
| STATE | Total R 

+---------------------- +---------- 
| Copying to tmp table | 0.090623 
| Sending data | 0.056774 
| Sorting result | 0.011555 
| removing tmp table | 0.005890 
| logging slow query | 0.000792 
| checking permissions | 0.000576 
| Creating tmp table | 0.000463 
| Opening tables | 0.000459 
| statistics | 0.000187 
| starting | 0.000082 
| preparing | 0.000067 
| freeing items | 0.000059 
| optimizing | 0.000059 
| init | 0.000022 
| Table lock | 0.000020 
| closing tables | 0.000013 
| System lock | 0.000010 
| executing | 0.000010 
| end | 0.000008 
| cleaning up | 0.000007 
| query end | 0.000003 
+---------------------- +---------- 


.0906230000 
.0189246667 
-0115550000 
.0019633333 
- 0003960000 
-0001152000 
. 0004630000 
-0004590000 
. 0000935000 
. 0000820000 
. 0000335000 
. 0000295000 
«0000295000 
. 0000220000 
. 0000200000 
. 0000130000 
. 0000100000 
. 0000050000 
. 0000080000 
. 0000070000 
. 0000030000 
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效果 好 多 了 ! 通过 这 个 结果 可 以 很 容易 看 到 查询 时 间 太 长 主要 是 因为 花 了 一 大 半 的 时 间 
在 将 数据 复制 到 临时 表 这 一 步 。 那 么 优化 就 要 考虑 如 何 改 写 查 询 以 避免 使 用 临时 表 ， 或 
者 提升 临时 表 的 使 用 效率 。 第 二 个 消耗 时 间 最 多 的 是 “发 送 数据 (Sending data)”， 这 个 
状态 代表 的 原因 非常 多 ， 可 能 是 各 种 不 同 的 服务 器 活动 ， 包 括 在 关联 时 搜索 匹配 的 行 记 
录 等 ， 这 部 分 很 难说 能 优化 节省 多 少 消耗 的 时 间 。 另 外 也 要 注意 到 “结果 排序 (Sorting 
result)” 花 费 的 时 间 占 比 非常 低 ， 所 以 这 部 分 是 不 值得 去 优化 的 。 这 是 一 个 比较 典型 的 
问题 ， 所 以 一 般 我 们 都 不 建议 用 户 在 “优化 排序 缓冲 区 (tuning sort buffer)” 或 者 类 似 
的 活动 上 花 时 间 。 


尽管 剖析 报告 能 帮助 我 们 定位 到 哪些 活动 花费 了 最 多 的 时 间 ， 但 并 不 会 告诉 我 们 为 什么 
会 这 样 。 要 弄 清楚 为 什么 复制 数据 到 临时 表 要 花费 这 么 多 时 间 ， 就 需要 深入 下 去 ， 继 续 
剖析 这 一 步 的 子 任务 。 


使 用 SHOW STATUS 


MySQL 的 SHOW STATUS 命令 返回 了 一 些 计数 器 。 既 有 服务 器 级 别 的 全 局 计数 器 ， 也 有 
基于 某 个 连接 的 会 话 级 别 的 计数 器 。 例 如 其 中 的 Queries™" 在 会 话 开始 时 为 0， 每 提交 
一 条 查询 增加 1。 如 果 执 行 SHOW GLOBAL STATUS (注意 到 新 加 的 GLOBAL 关键 字 ) ， 则 可 
以 查看 服务 器 级 别 的 从 服务 器 启动 时 开始 计算 的 查询 次 数 统计 。 不 同 计数 器 的 可 见 范围 
不 一 样 ， 不 过 全 局 的 计数 器 也 会 出 现在 SHOW STATUS 的 结果 中 ， 容 易 被 误 认为 是 会 话 级 
别 的 ， 千 万 不 要 搞 迷 类 了 。 在 使 用 这 个 命令 的 时 候 要 注意 几 点 ， 就 像 前 面 所 讨论 的 ， 收 
集合 适 级 别 的 测量 值 是 很 关键 的 。 如 果 打 算 优 化 从 某 些 特定 连接 观察 到 的 东西 ， 测 量 的 
却 是 全 局 级 别 的 数据 ， 就 会 导致 混乱 。MySQL 官方 手册 中 对 所 有 的 变量 是 会 话 级 还 是 
全 局 级 做 了 详细 的 说 明 。 


SHOW STATUS 是 一 个 有 用 的 工具 , 但 并 不 是 一 款 剖析 工具 = 一 。SHOW STATUS 的 大 部 分 结果 
都 只 是 一 个 计数 器 ， 可 以 显示 某 些 活动 如 读 索 引 的 频 索 程度 ， 但 无 法 给 出 消耗 了 多 少时 
lal, SHOW STATUS 的 结果 中 只 有 一 条 指 的 是 操作 的 时 间 (Innodb_row_Lock _ time) ， 而 且 
只 能 是 全 局 级 的 ， 所 以 还 是 无 法 测量 会 话 级 别 的 工作 。 


尽管 SHOW STATUS 无 法 提供 基于 时 间 的 统计 ， 但 对 于 在 执行 完 查 询 后 观察 某 些 计数 器 的 
值 还 是 有 帮助 的 。 有 时 候 可 以 猜测 哪些 操作 代价 较 高 或 者 消耗 的 时 间 较 多 。 最 有 用 的 计 
数 器 包括 句柄 计数 器 (handler counter) 、 临 时 文件 和 表 计 数 器 等 。 在 附录 了 中 会 对 此 
做 更 详细 的 解释 。 下 面 的 例子 演示 了 如 何 将 会 话 级 别 的 计数 器 重 置 为 0， 然 后 查询 前 面 
(使 用 SHOW PROFILE” 一 节 ) 提 到 的 视图 ， 再 检查 计数 器 的 结果 : 


注 11: 原文 用 的 Queries ,实际 上 这 里 有 点 问题 ,虽然 文档 上 也 说 这 个 参数 是 会 话 级 的 ,但 在 MySQL 5.1/5.5 
多 个 版 本 中 实际 查询 时 发 现 其 是 全 局 级 别 的 。 一 一 译 者 注 
注 12 : 如 果 你 有 本 书 的 第 二 版 ， 可 能 会 注意 到 我 们 正在 彻底 改变 这 一 点 。 
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mysql> FLUSH STATUS; 

mysql> SELECT * FROM sakila.nicer_but_slower_film_list; 

[query results omitted] 

mysql> SHOW STATUS WHERE Variable_name LIKE ‘Handler%' 
OR Variable_name LIKE “Created% ; 


+ 
| Created tmp disk tables | 
| Created tmp files | 
| Created tmp tables | 
| Handler commit | 
| Handler delete | 
| Handler discover | 
| Handler prepare | 
| Handler read first | 
| Handler read key | 
| Handler read next | 
| Handler read prev | 
| Handler read rnd | 
| Handler read rnd next | 
| Handler rollback | 
| Handler_savepoint | 
| Handler savepoint_rollback | 
| Handler update | 
| Handler write | 

+ 


从 结果 可 以 看 到 该 查询 使 用 了 三 个 临时 表 ， 其 中 两 个 是 磁盘 临时 表 ， 并 且 有 很 多 的 没有 
用 到 索引 的 读 操 作 (Handler_read_rnd_next)。 假 设 我 们 不 知道 这 个 视图 的 具体 定义 ， 
仅 从 结果 来 推测 ， 这 个 查询 有 可 能 是 做 了 多 表 关 联 (join) 查询 ， 并 且 没 有 合适 的 索引 ， 
可 能 是 其 中 一 个 子 查询 创建 了 临时 表 ， 然 后 和 其 他 表 做 联合 查询 。 而 用 于 保存 子 查询 结 
果 的 临时 表 没 有 索引 ， 如 此 大 致 可 以 解释 这 样 的 结果 。 


使 用 这 个 技术 的 时 候 ， 要 注意 SHOW STATUS 本 身 也 会 创建 一 个 临时 表 ， 而 且 也 会 通过 名 
柄 操作 访问 此 临时 表 ， 这 会 影响 到 SHOW STATUS 结果 中 对 应 的 数字 ， 而 且 不 同 的 版 本 可 
能 行为 也 不 尽 相 同 。 比 较 前 面 通过 SHOW PROFILES 获得 的 查询 的 执行 计划 的 结果 来 看 ， 
至 少 临 时 表 的 计数 器 多 加 了 2。 


你 可 能 会 注意 到 通过 EXPLAIN 查看 查询 的 执行 计划 也 可 以 获得 大 部 分 相同 的 信息 ， 但 
EXPLAIN 是 通过 估计 得 到 的 结果 ， 而 通过 计数 器 则 是 实际 的 测量 结果 。 例 如 ，EXPLAIN 无 
法 告诉 你 临时 表 是 否 是 磁盘 表 ， 这 和 内 存 临 时 表 的 性 能 差别 是 很 大 的 。 附 录 D 包含 更 多 
关于 EXPLAIN 的 内 容 。 


使 用 慢 查询 日 志 
那么 针对 上 面 这 样 的 查询 语句 ，Percona Server 对 慢 查 询 日 志 做 了 哪些 改进 ?下 面 是 “使 
用 SHOW PROFILE” 一 市 演示 过 的 相同 的 查询 执行 后 抓 取 到 的 结果 : 
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# Time: 110905 17:03:18 

# User@Host: root[root] @ localhost [127.0.0.1] 

# Thread_id: 7 Schema: sakila Last_errno: 0 Killed: 0 

# Query time: 0.166872 Lock time: 0.000552 Rows sent: 997 Rows examined: 24861 
Rows affected: 0 Rows read: 997 

# Bytes sent: 216528 Tmp_tables: 3 Tmp disk tables: 2 Tmp table sizes: 11627188 

# InnoDB_trx_id: 191E 

# QC Hit: No Full scan: Yes Full_join: No Tmp_table: Yes Tmp table on disk: Yes 

# Filesort: Yes Filesort on disk: No Merge passes: 0 

# InnoDB_I0 r ops: 0 InnoDB IO r bytes: 0 InnoDB IO r wait: 0.000000 

# InnoDB rec lock wait: 0.000000 InnoDB queue wait: 0.000000 

# InnoDB pages distinct: 20 

# PROFILE VALUES ... Copying to tmp table: 0.090623... [omitted] 

SET timestamp=1315256598; 

SELECT * FROM sakila.nicer_but_slower film list; 


从 这 里 看 到 查询 确实 一 共 创 建 了 三 个 临时 表 ， 其 中 两 个 是 磁盘 临时 表 。 而 SHOW PROFILE 
看 起 来 则 隐藏 了 信息 (可 能 是 由 于 服务 器 执行 查询 的 方式 有 不 一 样 的 地 方 造成 的 )。 这 
里 为 了 方便 阅读 ， 对 结果 做 了 简化 。 但 最 后 对 该 查询 执行 SHOW PROFILE 的 数据 也 会 写 入 
到 日 志 中 ， 所 以 在 Percona Server 中 甚至 可 以 记录 SHOW PROFILE 的 细节 信息 。 


另外 也 可 以 看 到 ， 慢 查询 日 志 中 详细 记录 的 条 目 包 含 了 SHOW PROFILE 和 SHOW STATUS 所 
有 的 输出 ， 并 且 还 有 更 多 的 信息 。 所 以 通过 pt-query-digest 发 现 “ 坏 ”查询 后 ， 在 慢 查 
询 日 志 中 可 以 获得 足够 有 用 的 信息 。 查 看 pt-query-digest 的 报告 时 ， 其 标题 部 分 一 般 会 
有 如 下 输出 : 


# Query 1: 0 QPS, Ox concurrency, ID OxEE758C5EOD7EADEE at byte 3214 


可 以 通过 这 里 的 字 节 偏 移 值 (3214) 直接 跳 转 到 日 志 的 对 应 部 分 ， 例 如 用 下 面 这 样 的 命 
令 即 可 : 


tail -c +3214 /path/to/query.log | head -n100 


这 样 就 可 以 直接 跳 转 到 细节 部 分 了 。 另 外 ，pt-query-digest 能 够 处 理 Percona Server 在 慢 
查询 日 志 中 增加 的 所 有 键 值 对 ， 并 且 会 自动 在 报告 中 打印 更 多 的 细节 信息 。 


使 用 Performance Schema 

在 本 书写 作 之 际 ， 在 MySQL 5.5 中 新 增 的 Performance Schema 表 还 不 支持 查询 级 别 的 
剖析 信息 。Performance Schema 还 是 非常 新 的 特性 ， 并 且 还 在 快速 开发 中 ， 未 来 的 版 本 
中 将 会 包含 更 多 的 功能 。 尽 管 如 此 ，MySQL 5.5 的 初始 版 本 已 经 包含 了 很 多 有 趣 的 信息 。 
例如 ， 下 面 的 查询 显示 了 系统 中 等 待 的 主要 原因 : 
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mysql> SELECT event_name, count_star, sum_timer_wait 
-> FROM events waits summary global by event name 
-> ORDER BY sum_timer_wait DESC LIMIT 5; 


+---------------------------------------- +------------ +------------------ + 
| event_name | count_star | sum timer wait | 
+---------------------------------------- +------------ +------------------ + 
| innodb log file | 205438 | 2552133070220355 | 
| Query cache::COND cache status changed | 8405302 | 2259497326493034 | 
| Query cache::structure guard mutex | 55769435 | 361568224932147 | 
| innodb data file | 62423 | 347302500600411 | 
| dict_table stats | 15330162 | 53005067680923 | 
+---------------------------------------- +------------ +------------------ + 


目前 还 有 一 些 限 制 , 使 得 Performance Schema 还 无 法 被 当 作 一 个 通用 的 剖析 工具 。 首 先 ， 
它 还 无 法 提供 查询 执行 阶段 的 细节 信息 和 计时 信息 ， 而 前 面 提供 的 很 多 现 有 的 工具 都 已 
经 能 做 到 这 些 了 。 其 次 ， 还 没有 经 过 长 时 间 、 大 规模 使 用 的 验证 ， 并 且 自 身 的 开销 也 还 
比较 大 ， 多 数 比 较 保 守 的 用 户 还 对 此 持 有 疑问 (不 过 有 理由 相信 这 些 问 题 很 快 都 会 被 修 
复 的 )。 


最 后 ， 对 大 多 数 用 户 来 说 ， 直 接 通 过 Performance Schema 的 裸 数 据 获得 有 用 的 结果 相对 
来 说 过 于 复杂 和 底层 。 到 目前 为 止 实现 的 这 个 特性 ， 主 要 是 为 了 测量 当 为 提升 服务 器 性 
能 而 修改 MySQL 源 代 码 时 使 用 ， 包 括 等 待 和 互 斥 锁 。MySQL 5.5 中 的 特性 对 于 高 级 用 
户 也 很 有 价值 ， 而 不 仅仅 为 开发 者 使 用 ， 但 还 是 需要 开发 一 些 前 端 工具 以 方便 用 户 使 用 
和 分 析 结 果 。 目 前 就 只 能 通过 写 一 些 复杂 的 语句 去 查询 大 量 的 元 数据 表 的 各 种 列 。 这 在 
使 用 过 程 中 需要 花 很 多 时 间 去 熟悉 和 理解 。 


在 MySQL 5.6 或 者 以 后 的 版 本 中 ，Performance Schema 将 会 包含 更 多 的 功能 ， 再 加 上 
一 些 方便 使 用 的 工具 ， 这 样 就 更 “更 ”了 。 而 且 Oracle 将 其 实现 成 表 的 形式 ， 可 以 通过 
SQL 访问 ， 这 样 用 户 可 以 方便 地 访问 有 用 的 数据 。 但 其 目前 还 无 法 立即 取代 慢 查 询 日 志 
等 其 他 工具 用 于 服务 器 和 查询 的 性 能 优化 。 


3.3.3 使 用 性 能 剂 析 

当 获 得 服务 器 或 者 查询 的 剖析 报告 后 ， 怎 么 使 用 ? 好 的 前 析 报 告 能 够 将 潜在 的 问题 显示 
出 来 ， 但 最 终 的 解决 方案 还 需要 用 户 来 决定 (尽管 报告 可 能 会 给 出 建议 )。 优 化 查询 时 ， 
用 户 需 要 对 服务 器 如 何 执行 查询 有 较 次 的 了 解 。 剂 析 报 告 能 够 尽 可 能 多 地 收集 需要 的 信 
息 、 给 出 诊断 间 题 的 正确 方向 ， 以 及 为 其 他 诸如 EXPLAIN 等 工具 提供 基础 信息 。 这 里 只 
是 先 引 出 话题 ， 后 续 章 市 将 继续 讨论 。 


尽管 一 个 拥有 完整 测量 信息 的 剖析 报告 可 以 让 事情 变 得 简单 ， 但 现 有 系统 通常 都 没有 完 
美的 测量 支持 。 从 前 面 的 例子 来 说 ,我们 虽然 推断 出 是 临时 表 和 没有 索引 的 读 导 致 查询 
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的 响应 时 间 过 长 ， 但 却 没有 明确 的 证 据 。 因 为 无 法 测量 所 有 需要 的 信息 ， 或 者 测量 的 范 
围 不 正确 ， 有 些 问 题 就 很 难 解决 。 例 如 ， 可 能 没有 和 集中 在 需要 优化 的 地 方 测量 ， 而 是 测 
量 了 服务 器 层面 的 活动 ; 或 者 测量 的 是 查询 开始 之 前 的 计数 器 ， 而 不 是 查询 开始 后 的 数 
据 。 


也 有 其 他 的 可 能 性 。 设 想 一 下 正在 分 析 慢 查询 日 志 ， 发 现 了 一 个 很 简单 的 查询 正常 情况 
下 都 非常 快 ， 却 有 几 次 非常 不 合理 地 执行 了 很 长 时 间 。 手 工 重 新 执行 一 遍 ， 发 现 也 非 
常 快 ， 然 后 使 用 EXPLAIN 查询 其 执行 计划 ， 也 正确 地 使 用 了 索引 。 然 后 尝试 修改 WHERE 
条 件 中 使 用 不 同 的 值 ， 以 排除 缓存 命中 的 可 能 ， 也 没有 发 现 有 什么 问题 ， 这 可 能 是 什么 
原因 呢 ? 


如 果 使 用 官方 版 本 的 MySQL， 慢 查询 日 志 中 没有 执行 计划 或 者 详细 的 时 间 信息 ， 对 于 
偶尔 记录 到 的 这 几 次 查询 异常 慢 的 问题 ， 很 难 知道 其 原因 在 哪里 ， 因 为 信息 有 限 。 可 能 
是 系统 中 有 其 他 东西 消耗 了 资源 ， 比 如 正在 备份 ， 也 可 能 是 某 种 类 型 的 锁 或 者 争 用 阻塞 
了 查询 的 进度 。 这 种 间 吹 性 的 问题 将 在 下 一 节 详 细 讨 论 。 


3.4 诊断 间歇 性 问题 

间歇 性 的 问题 比如 系统 偶尔 停顿 或 者 慢 查 询 ， 很 难 诊 断 。 有 些 幻 影 问题 只 在 没有 注意 到 
的 时 候 才 发 生 ， 而 且 无 法 确认 如 何 重 现 ， 诊 断 这 样 的 问题 往往 要 花费 很 多 时 间 ， 有 时 候 
甚至 需要 好 几 个 月 。 在 这 个 过 程 中 ， 有 些 人 会 尝试 以 不 断 试 错 的 方式 来 诊断 ， 有 时 候 甚 
至 会 想 要 通过 随机 地 改变 一 些 服务 器 的 设置 来 侥幸 地 找到 问题 。 


尽量 不 要 使 用 试 错 的 方式 来 解决 问题 。 这 种 方式 有 很 大 的 风险 ， 因 为 结果 可 能 变 得 更 坏 。 
这 也 和 是 一 种 令 人 诅 臣 且 低 效 的 方式 。 如 果 一 时 无 法 定位 问题 ， 可 能 是 测量 的 方式 不 正确 ， 
或 者 测量 的 所 选择 有 误 ， 或 者 使 用 的 工具 不 合适 〈 也 可 能 是 缺少 现成 的 工具 ， 我 们 已 经 
开发 过 工具 来 解决 各 个 系统 不 透明 导致 的 问题 ， 包 括 从 操作 系统 到 MySQL 都 有 ) 。 


为 了 演示 为 什么 要 尽量 避免 试 错 的 诊断 方式 ， 下 面 列 举 了 我 们 认为 已 经 解决 的 一 些 间 时 
性 数据 库 性 能 问题 的 实际 案例 : 


e 应 用 通过 curl 从 一 个 运行 得 很 慢 的 外 部 服务 来 获取 汇率 报价 的 数据 。 

。 memcached 缓存 中 的 一 些 重要 条 目 过 期 ， 导 致 大 量 请 求 落 到 MySQL 以 重新 生成 缓 
存 条 目 。 

。 DNS 查询 偶尔 会 有 超时 现象 。 

。 可 能 是 由 于 互 斥 锁 争 用 ， 或 者 内 部 删除 查询 缓存 的 算法 效率 太 低 的 缘故 ，MySQL 的 
查询 缓存 有 时 候 会 导致 服务 有 短暂 的 停顿 。 
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。 当 并 发 度 超过 某 个 装 值 时 ，InnoDB 的 扩展 性 限制 导致 查询 计划 的 优化 需要 很 长 的 时 
间 。 


从 上 面 可 以 看 到 ， 有 些 问 题 确实 是 数据 库 的 原因 ， 也 有 些 不 是 。 只 有 在 问题 发 生 的 地 方 
通过 观察 资源 的 使 用 情况 ， 并 尽 可 能 地 测量 出 数据 ， 才 能 避免 在 没有 问题 的 地 方 耗费 精 
JJe 


下 面 不 再 多 费 口 舌 说 明 试 错 的 问题 ， 而 是 给 出 我 们 解决 间歇 性 问题 的 方法 和 工具 ， 这 才 
是 “王道 ”。 


3.4.1 单条 查询 问题 还 是 服务 器 问题 

发 现 问 题 的 蛛丝马迹 了 吗 ? 如 果 有 ， 则 首先 要 确认 这 是 单条 查询 的 问题 ， 还 是 服务 器 的 
问题 。 这 将 为 解决 问题 指出 正确 的 方向 。 如 果 服 务 器 上 所 有 的 程序 都 突然 变 慢 ， 又 突然 
都 变 好 ， 每 一 条 查询 也 都 变 慢 了 ， 那 么 慢 查 询 可 能 就 不 一 定 是 原因 ， 而 是 由 于 其 他 问题 
导致 的 结果 。 反 过 来 说 ， 如 果 服 务 器 整体 运行 没有 问题 ， 只 有 某 条 查询 偶尔 变 慢 ， 就 
需要 将 注意 力 放 到 这 条 特定 的 查询 上 面 。 


服务 占 的 问题 非常 常见 。 在 过 去 几 年 ， 硬 件 的 能 力 越 来 越 强 ， 配 置 16 核 或 者 更 多 CPU 
的 服务 器 成 了 标 配 ，MySQL 在 SMP 架构 的 机 器 上 的 可 扩展 性 限制 也 就 越 来 越 显露 出 
来 。 尤 其 是 较 老 的 版 本 ， 其 问题 更 加 严重 ， 而 目前 生产 环境 中 的 老 版 本 还 非常 多 。 新 版 
本 MySQL 依然 也 还 有 一 些 扩展 性 限制 ， 但 相 比 老 版 本 已 经 没有 那么 严重 ， 而 且 出 现 的 
频率 相对 小 很 多 ， 只 是 偶尔 能 碰 到 。 这 是 好 消息 ， 也 是 坏 消 息 : 好 消息 是 很 少 会 碰 到 这 
个 问题 ， 坏 消 息 则 是 一 旦 磁 到 ， 则 需要 对 MySQL 内 部 机 制 更 加 了 解 才 能 诊断 出 来 。 当 
然 ， 这 也 意味 着 很 多 问题 可 以 通过 升级 到 MySQL 新 版 本 来 解决 。 


那么 如 何 判断 是 单条 查询 问题 还 是 服务 器 问题 呢 ? 如 采 问 题 不 停 地 周期 性 出 现 ， 那 么 可 
以 在 茶 次 活动 中 观察 到 , 或 者 整 夜 运行 脚本 收集 数据 ， 第 二 天 来 分 析 结 果 。 大 多 数 情 况 
下 都 可 以 通过 三 种 技术 来 解决 ， 下 面 将 一 一 道 来 。 


使 用 SHOW GLOBAL STATUS 

这 个 方法 实际 上 就 是 以 较 高 的 频率 比如 一 秒 执行 一 次 SHOW GLOBAL STATUS 命令 捕 
获 数据 ， 问 题 出 现时 ， 则 可 以 通过 某 些 计数 器 (比如 Threads_running、Threads_ 
connected, Questions 和 Queries) 的 “ 尖 刺 ”或 者 “凹陷 ”来 发 现 。 这 个 方法 比较 简单 ， 
所 有 人 都 可 以 使 用 〈 不 需要 特殊 的 权限 ) ， 对 服务 器 的 影响 也 很 小 ， 所 以 是 一 个 花费 时 
间 不 多 却 能 很 好 地 了 解 问题 的 好 方法 。 下 面 是 示例 命令 及 其 输出 : | 


213: 再 次 强调 ， 在 没有 足够 的 理由 确信 这 是 解决 办 法 之 前 ， 不 要 随便 去 做 升级 操作 。 
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$ a ext -i1 | awk ' 
/Queries/{q=$4-qp; qp=$4} 
/Threads_connected/{tc=$4} 
/Threads_running/{printf "%5d %5d %5d\n", q, tc, $4}' 
2147483647 136 7 
798 136 7 
767 134 9 
828 134 7 
683 134 7 
784 135 7 
614 134 7 
108 134 24 
187 134 31 
179 134 28 
1179 134 7 
1151 134 7 
1240 135 7 
1000 135 7 
这 个 命令 每 秒 捕获 一 次 SHOW GLOBAL STATUS 的 数据 ， 输 出 给 awk 计算 并 输出 每 秒 的 查 
询 数 、Threads_connected 和 Threads running (表示 当前 正在 执行 查询 的 线程 数 ) 。 这 
三 个 数据 的 趋势 对 于 服务 器 级 别 偶尔 停顿 的 敏感 性 很 高 。 一 般 发 生 此 类 问题 时 ， 根 据 原 
因 的 不 同和 应 用 连接 数据 库 方式 的 不 同 ， 每 秒 的 查询 数 一 般 会 下 跌 ， 而 其 他 两 个 则 至 少 
有 一 个 会 出 现 尖 刺 。 在 这 个 例子 中 ， 应 用 使 用 了 连接 池 ， 所 以 Threads connected 没有 
变化 。 但 正在 执行 查询 的 线程 数 明显 上 升 ， 同 时 每 秒 的 查询 数 相 比 正常 数据 有 严重 的 下 


跌 。 


如 何 解析 这 个 现象 呢 ? 凭 猜测 有 一 定 的 风险 。 但 在 实践 中 有 两 个 原因 的 可 能 性 比较 大 。 
其 中 之 一 是 服务 器 内 部 磁 到 了 某 种 瓶 贷 ， 导 致 新 查询 在 开始 执行 前 因为 需要 获取 老 查 询 
正在 等 待 的 锁 而 造成 堆积 。 这 一 类 的 锁 一 般 也 会 对 应 用 服务 器 造成 后 端 压力 ， 使 得 应 用 
服务 器 也 出 现 排 队 间 题 。 另 外 一 个 常见 的 原因 是 服务 区 突然 遇 到 了 大 量 查 询 请 求 的 冲击 ， 
比如 前 端的 memcached 突然 失效 导致 的 查询 风暴 。 


这 个 命令 每 秒 输出 一 行 数据 ， 可 以 运行 几 个 小 时 或 者 几 天 ， 然 后 将 结果 绘制 成 图 形 ， 这 
样 就 可 以 方便 地 发 现 是 否 有 趋势 的 突变 。 如 果 问 题 确实 是 间歇 性 的 ， 发 生 的 频率 又 较 低 ， 
也 可 以 根据 需要 尽 可 能 长 时 间 地 运行 此 命令 ， 直 到 发 现 问题 再 回头 来 看 输出 结果 。 大 多 
数 情况 下 ， 通 过 输出 结果 都 可 以 更 明确 地 定位 问题 。 


使 用 SHOW PROCESSLIST 

这 个 方法 是 通过 不 停 地 捕获 SHOW PROCESSLIST 的 输出 ， 来 观察 是 否 有 大 量 线程 处 于 不 正 
第 的 状态 或 者 有 其 他 不 正常 的 特征 。 例 如 查询 很 少 会 长 时 间 处 于 “statistics” 状 态 ， 这 
个 状态 一 般 是 指 服务 器 在 查询 优化 阶段 如 何 确 定 表 关 联 的 顺序 一 一 通常 都 是 非常 快 的 。 
另外 ， 也 很 少 会 见 到 大 量 线程 报告 当前 连接 用 户 是 “未 经 验证 的 用 户 (Unauthenticated 
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user)”， 这 只 是 在 连接 握手 的 中 间 过 程 中 的 状态 ， 当 客户 端 等 待 输入 用 于 登录 的 用 户 信 
息 的 时 候 才 会 出 现 。 | 


使 用 SHOW PROCESSLIST 命 令 时 ， 在 尾部 加 上 \6 可 以 垂直 的 方式 输出 结果 ， 这 很 有 
用 ， 因 为 这 样 会 将 每 一 行 记 录 的 每 一 列 都 单独 输出 为 一 行 ， 这 样 可 以 方便 地 使 用 
sort\uniq|sort 一 类 的 命令 来 计算 某 个 列 值 出 现 的 次 数 : 
$ mysql -e 'SHOW PROCESSLIST\G' | grep State: | sort i uniq -c | sort -rn 
744 State: 
67 State: Sending data 
36 State: freeing items 
8 State: NULL 
6 State: end 
4 State: Updating 
4 State: cleaning up 
2 State: update 
1 
1 


State: Sorting result 
State: logging slow query 


如 果 要 查看 不 同 的 列 ， 只 需要 修改 grep 的 模式 即 可 。 在 大 多 数 案例 中 ，State 列 都 非常 
有 用 。 从 这 个 例子 的 输出 中 可 以 看 到 ， 有 很 多 线程 处 于 查询 执行 的 结束 部 分 的 状态 ， 包 
括 “freeing items”, “end”, “cleaning up” FU “logging slow query”. XE, ER Plh 
的 这 人 台 服 务 器 上 ， 同 样 模式 或 类 似 的 输出 采样 出 现 了 很 多 次 。 大 量 的 线程 处 于 “freeing 
items” 状 态 是 出 现 了 大 量 有 问题 查询 的 很 明显 的 特征 和 指示 。 


用 这 种 技术 查找 问题 ， 上 面 的 命令 行 不 是 唯一 的 方法 。 如 果 MySQL 服务 器 的 版 本 较 
新 ， 也 可 以 直接 查询 INFORMATION SCHEMA 中 的 PROCESSLIST # ; 或 者 使 用 innotop 工具 
以 较 高 的 频率 刷新 ， 以 观察 屏幕 上 出 现 的 不 正常 查询 堆积 。 上 面 演 示 的 这 个 例子 是 由 于 
InnoDB 内 部 的 争 用 和 脏 块 刷新 所 导致 ， 但 有 时 候 原因 可 能 比 这 个 要 简单 得 多 。 一 个 经 
典 的 例子 是 很 多 查询 处 于 “Locked ”状态 ， 这 是 MyISAM 的 一 个 典型 问题 ， 它 的 表 级 
别 锁定 ， 在 写 请 求 较 多 时 ， 可 能 迅速 导致 服务 器 级 别 的 线程 堆积 。 


使 用 查询 日 志 

如 果 要 通过 查询 日 志 发 现 问题 ， 需 要 开启 慢 查 询 日 志 并 在 全 局 级 别 设置 long_query_ 
time 为 0， 并 且 要 确认 所 有 的 连接 都 采用 了 新 的 设置 。 这 可 能 需要 重 置 所 有 连接 以 使 新 
的 全 局 设置 生效 ; 或 者 使 用 Percona Server 的 一 个 特性 ， 可 以 在 不 断 开 现 有 连接 的 情况 
下 动态 地 使 设置 强制 生效 。 


如 采 因 为 某 些 原因 ， 不 能 设置 慢 查 询 日 志 记 录 所 有 的 查询 ， 也 可 以 通过 tcpdump 和 pt- 
query-digest 工具 来 模拟 替代 。 要 注意 找到 吞吐 量 突然 下 降 时 间 段 的 日 志 。 查 询 是 在 完成 
阶段 才 写 入 到 慢 查 询 日 志 的 ， 所 以 堆积 会 造成 大 量 查询 处 于 完成 阶段 ， 直 到 阻塞 其 他 查 
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询 的 资源 占用 者 释放 资源 后 ， 其 他 的 查询 才能 执行 完成 。 这 种 行为 特征 的 一 个 好 处 是 ， 
当 遇 到 吞吐 量 突然 下 降 时 ， 可 以 归咎 于 吞吐 量 下 隆 后 完成 的 第 一 个 查询 《有 时 候 也 不 一 
定 是 第 一 个 查询 。 当 某 些 查询 被 阻塞 时 ， 其 他 查询 可 以 不 受 影 响 继续 运行 ， 所 以 不 能 完 
全 依赖 这 个 经 验 )。 


再 重申 一 次 ， 好 的 工具 可 以 帮助 诊断 这 类 问题 ， 否 则 要 人 工 去 几 百 GB 的 查询 日 志 中 找 


原因 。 下 面 的 例子 只 有 一 行 代码 ， 却 可 以 根据 MySQL 每 秒 将 当前 时 间 写 入 日 志 中 的 模 
式 统计 每 秒 的 查询 数量 : 

$ awk '/*# Time:/{print $3, $4, c;c=0}/^# User/{c++}' slow-query.log 

080913 21:52:17 51 

080913 21:52:18 29 

080913 21:52:19 34 

080913 21:52:20 33 

080913 21:52:21 38 

080913 21:52:22 15 

080913 21:52:23 47 

080913 21:52:24 96 

080913 21:52:25 6 

080913 21:52:26 66 

080913 21:52:27 37 

080913 21:52:28 59 | 
从 上 面 的 输出 可 以 看 到 有 吞吐 量 突然 下 降 的 情况 发 生 ， 而 且 在 下 降 之 前 还 有 一 个 突然 的 
高 峰 ， 仅 从 这 个 输出 而 不 去 查询 当时 的 详细 信息 很 难 确 定 发 生 了 什么 ， 但 应 该 可 以 说 这 
个 突然 的 高 峰 和 随后 的 下 降 一 定 有 关联 。 不 管 怎么 说 ， 这 种 现象 都 很 奇怪 ， 值 得 去 日 志 
中 挖掘 该 时 间 段 的 详细 信息 (实际 上 通过 日 志 的 详细 信息 ， 可 以 发 现 突然 的 高 峰 时 段 有 
很 多 连接 被 断 开 的 现象 ， 可 能 是 有 一 台 应 用 服务 器 重启 导致 的 。 所 以 不 是 所 有 的 问题 都 
是 MySQL 的 问题 )。 


理解 发 现 的 问题 (Making sense of the findings) 

可 视 化 的 数据 最 具有 说 服 力 。 上 面 只 演示 了 很 少 的 几 个 例子 ， 但 在 实际 情况 中 ， 利 用 上 
面 的 工具 诊断 时 可 能 产生 大 量 的 输出 结果 。 可 以 选择 用 gnuplot 或 R， 或 者 其 他 绘图 工 
具 将 结果 绘制 成 图 形 。 这 些 绘 图 工具 速度 很 快 ， 比 电子 表格 要 快 得 多 ， 而 且 可 以 对 图 上 
的 一 些 异 常 的 地 方 进 行 缩放 ， 这 上 比 在 终端 中 通过 滚动 条 翻 看 文字 要 好 用 得 多 ， 除 非 你 是 
“黑客 帝国 ”中 的 矩阵 观察 者 ““。 


我 们 建议 诊断 问题 时 先 使 用 前 两 种 方法 : SHOW STATUS 和 SHOW PROCESSLIST。 这 两 种 方 
法 的 开销 很 低 ， 而 且 可 以 通过 简单 的 shell 脚本 或 者 反复 执行 的 查询 来 交互 式 地 收集 数 
据 。 分 析 慢 查询 日 志 则 相对 要 困难 一 些 ， 经 常会 发 现 一 些 蛛丝马迹 ， 但 仔细 去 研究 时 可 


注 14 : 到 目前 为 止 我 们 还 没 发 现 红 衣 女 ， 如 果 发 现 了 ， 一 定 会 让 你 知道 的 。 
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能 又 消失 了 。 这 样 我 们 很 容易 会 认为 其 实 设 有 问题 。 


发 现 输出 的 图 形 异常 意味 着 什么 ?通常 来 说 可 能 是 查询 在 某 个 地 方 排队 了 ， 或 者 茶 种 查 
MRAM T. RP RH ES MEK ee RA. 


3.4.2 捕获 诊断 数据 

当 出 现 间 和 软 性 问题 时 ， 需 要 尽 可 能 多 地 收集 所 有 数据 ， 而 不 只 是 问题 出 现时 的 数据 。 虽 
然 这 样 会 收集 大 量 的 诊断 数据 ， 但 总 比 真 正 能 够 诊断 问题 的 数据 没有 被 收集 到 的 情况 要 
好 。 


在 开始 之 前 ， 需 要 搞 清 楚 两 件 事 : 


1. 一 个 可 靠 且 实时 的 “触发 器 ”， 也 就 是 能 区 分 什么 时 候 问 题 出 现 的 方法 。 
2. 一 个 收集 诊断 数据 的 工具 。 


诊断 触发 器 | 
触发 器 非常 重要 。 这 是 在 问题 出 现时 能 够 捕获 数据 的 基础 。 有 两 个 常见 的 问题 可 能 导致 
无 法 达到 预期 的 结果 : RR (false positive) 或 者 漏 检 (false negative) 。 误 报 是 指 收集 
了 很 多 诊断 数据 ， 但 期 间 其 实 设 有 发 生 问 题 ， 这 可 能 浪费 时 间 ， 而 且 令 人 诅 形 。 而 漏 检 
则 指 在 问题 出 现时 没有 捕获 到 数据 ， 错 失 了 机 会 ， 一 样 地 浪费 时 间 。 所 以 在 开始 收集 数 
据 前 多 花 一 点 时 间 来 确认 触发 器 能 够 真正 地 识别 问题 是 划算 的 。 


那么 好 的 触发 器 的 标准 是 什么 呢 ? 像 前 面 的 例子 展示 的 ，Threads_running 的 趋势 在 出 
现 问 题 时 会 比较 敏感 ， 而 没有 问题 时 则 比较 平稳 。 另 外 SHOW PROCESSLIST 中 线程 的 异常 
状态 尖峰 也 是 个 不 错 的 指标 。 当 然 除 此 之 外 还 有 很 多 的 方法 ， 包 括 SHOW INNODB STATUS 
的 特定 输出 、 服 务 器 的 平均 负载 尖峰 等 。 关 键 是 找到 一 些 能 和 正常 时 的 阔 值 进行 比较 的 
指标 。 通 常情 况 下 这 是 一 个 计数 ， 比 如 正在 运行 的 线程 的 数量 、 处 于 “freeing items” IR 
态 的 线程 的 数量 等 。 当 要 计算 线程 某 个 状态 的 数量 时 ，grep 的 -c 选项 非常 有 用 : 


$ mysql -e “SHOW PROCESSLIST\G' | grep -c "State: freeing items" 
36 | 


we—T SHR RBS, MZEE, URE RN DARA ; 又 不 能 太 高 ， 
要 确保 问题 发 生 时 不 会 错过 。 另 外 要 注意 ， 要 在 问题 开始 时 就 捕获 数据 ， 就 更 不 能 将 图 
值 设 置 得 太 高 。 问 题 持续 上 升 的 趋势 一 般 会 导致 更 多 的 问题 发 生 ， 如 果 在 问题 导致 系统 
快要 崩溃 时 才 开 始 捕获 数据 ， 就 很 难 诊断 到 最 初 的 根本 原因 。 如 果 可 能 ， 在 问题 还 是 涓 
训 细 流 的 时 候 就 要 开始 收集 数据 ， 而 不 要 等 到 波涛 泣 涌 才 开 始 。 举 个 例子 ,Threads_ 
connected 偶尔 出 现 非常 高 的 尖峰 值 ， 在 几 分 钟 时 间 内 会 从 100 冲 到 5 000 或 者 更 高 ， 
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POA BBA 4 999 也 可 以 捕获 到 问题 ， 但 为 什么 非 要 等 到 这 么 高 的 时 候 才 收集 数据 
We? 如 果 在 正常 时 该 值 一 般 不 超过 150, KAARLEA 200 或 者 300 会 更 好 。 


回 到 前 面 关 于 Threads_running 的 例子 ， 正 常情 况 下 的 并 发 度 不 超过 10。 但 是 赋值 设置 
为 10 并 不 是 一 个 好 注意 ， 很 可 能 会 导致 很 多 误 报 。 即 使 设置 为 15 也 不 够 ， 可 能 还 是 会 
有 很 多 正常 的 波动 会 到 这 个 范围 。 当 并 发 运行 线程 到 15 的 时 候 可 能 也 会 有 少量 堆积 的 
情况 ， 但 可 能 还 没 到 问题 的 引爆 点 。 但 也 应 该 在 精 糕 到 一 眼 就 能 看 出 问题 前 就 清晰 地 识 
别 出 来 ， 对 于 这 个 例子 ， 我 们 建议 阀 值 可 以 设置 为 20。 


我 们 当然 希望 在 问题 确实 发 生 时 能 捕获 到 数据 ， 但 有 时 候 也 需要 稍微 等 待 一 下 以 确保 不 
是 误 报 或 者 短暂 的 尖峰 。 所 以 ， 最 后 的 触发 条 件 可 以 这 样 设置 ; 每 秒 监控 状态 值 ， 如 果 
Threads_running 连续 5 秒 超过 20， 就 开始 收集 诊断 数据 (顺便 说 一 句 ， 我 们 的 例子 中 
问题 只 持续 了 3 秒 就 消失 了 ， 这 是 为 了 使 例子 简单 而 设置 的 。3 秒 的 故障 不 容易 诊断 ， 
而 我 们 碰 到 过 的 大 部 分 问题 持续 时 间 都 会 更 长 一 些 )。 


所 以 我 们 需要 利用 一 种 工具 来 监控 服务 器 ， 当 达到 触发 条 件 时 能 收集 数据 。 当 然 可 以 自 
己 编 写 脚本 来 实现 ， 不 过 不 用 那么 麻烦 ，Percona Toolkit 中 的 pt-stalk 就 是 为 这 种 情况 设 
计 的 。 这 个 工具 有 很 多 有 用 的 特性 ， 只 要 碰 到 过 类 似 问 题 就 会 明白 这 些 特性 的 必要 性 。 
例如 ， 它 会 监控 磁盘 的 可 用 空间 ， 所 以 不 会 因为 收集 太 多 的 数据 将 空间 耗 尽 而 导致 服务 
器 朋 注 。 如 果 之 前 碰 到 过 这 样 的 情况 ， 你 就 会 理解 这 一 点 了 。 


Pt-sta 上 的 用 法 很 简单 。 可 以 配置 需要 监控 的 变量 、 阁 值 、 检 查 的 频率 等 。 还 支持 一 些 比 
实际 需要 更 多 的 花哨 特性 ， 但 在 这 个 例子 中 有 这 些 已 经 足够 了 。 在 使 用 之 前 建议 先 阅 读 
附带 的 文档 。pt-stalk 还 依赖 于 另外 一 个 工具 执行 真正 的 收集 工作 ， 接 下 来 会 讨论 。 


需要 收集 什么 样 的 数据 


”现在 已 经 确定 了 诊断 触发 器 ， 可 以 开始 启动 一 些 进程 来 收集 数据 了 。 但 需要 收集 什么 样 


的 数据 呢 ? 就 像 前 面 说 的 ， 答 案 是 尽 可 能 收集 所 有 能 收集 的 数据 ， 但 只 在 需要 的 时 间 段 
内 收集 。 包 括 系 统 的 状态 、CPU 利用 率 、 磁 盘 使 用 率 和 可 用 空间 、ps 的 输出 采样 、 内 存 
利用 率 ， 以 及 可 以 从 MySQL 获得 的 信息 ， 如 SHOW STATUS, SHOW PROCESSLIST 和 SHOW 
INNODB STATUS。 这 些 在 诊断 问题 时 都 需要 用 到 (可 能 还 会 有 更 多 )。 


执行 时 间 包 括 用 于 工作 的 时 间 和 等 待 的 时 间 。 当 一 个 未 知 问题 发 生 时 ， 一 般 来 说 有 两 种 
可 能 : 服务 器 需要 做 大 量 的 工作 ， 从 而 导致 大 量 消耗 CPU, 或 者 在 等 待 某 些 资源 被 释 
放 。 所 以 需要 用 不 同 的 方法 收集 诊断 数据 ， 来 确认 是 何 种 原因 : 剖析 报告 用 于 确认 是 否 
有 太 多 工作 ， 而 等 待 分 析 则 用 于 确认 是 否 存在 大 量 等 待 。 如 果 是 未 知 的 问题 ， 怎 么 知道 
将 精力 集中 在 哪个 方面 呢 ? 没有 更 好 的 办 法 ， 所 以 只 能 两 种 数据 都 尽量 收集 。 
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在 GNU/Linux 平台 ， 可 用 于 服务 器 内 部 诊断 的 一 个 重要 工具 是 oprofile。 后 面 会 展示 一 
些 例子 。 也 可 以 使 用 strace 齐 析 服 务 器 的 系统 调用 ,但 在 生产 环境 中 使 用 它 有 一 定 的 风险 。 

后 面 还 会 继续 讨论 它 。 如 果 要 剖析 查询 ， 可 以 使 用 tcpdump。 大 多 数 MySQL 版 本 无 法 

方便 地 打开 和 关闭 慢 查 询 日 志 ， 此 时 可 以 通过 监听 TCP 流量 来 模拟 。 另 外 ， 网 络 流量 在 

其 他 一 些 分 析 中 也 非常 有 用 。 


对 于 等 待 分 析 ， 常 用 的 方法 是 GDB 的 堆栈 跟踪 = 5。MySQL 内 的 线程 如 果 卡 在 一 个 特定 
的 地 方 很 长 时 间 ， 往 往 都 有 相同 的 堆栈 跟踪 信息 。 跟 踪 的 过 程 是 先 启动 sa， 然后 附加 
(attach) 到 mysqld 进程 ， 将 所 有 线程 的 堆栈 都 转 储 出 来 。 然 后 可 以 利用 一 些 简短 的 脚本 
将 类 似 的 堆栈 跟踪 信息 做 汇总 ， 再 利用 sort|uniq|sort 的 “魔法 ”排序 出 总 计 最 多 的 堆栈 
信息 。 稍 后 将 演示 如 何 用 pt-pmp 工具 来 完成 这 个 工作 。 


也 可 以 使 用 SHOW PROCESSLIST 和 SHOW INNODB STATUS 的 快照 信息 观察 线程 和 事务 的 状 
态 来 进行 等 竺 分析 。 这 些 方法 都 不 完美 ， 但 实践 证 明 还 是 非常 有 帮助 的 。 


收集 所 有 的 数据 听 起 来 工作 量 很 大 。 或 许 读者 之 前 已 经 做 过 类 似 的 事情 ， 但 我 们 提供 的 
工具 可 以 提供 一 些 帮 助 。 这 个 工具 名 为 pt-collect， 也 是 Percona Toolkit 中 的 一 员 。pt 
-collect 一 般 通 过 pt-stalk 来 调用 。 因 为 涉及 很 多 重要 数据 的 收集 ， 所 以 需要 用 root 权限 
来 运行 ,默认 情况 下 ,启动 后 会 收集 30 秒 的 数据 ,然后 退出 。 对 于 大 多 数 问 题 的 诊断 来 说 ， 
这 已 经 足够 ， 但 如 果 有 误 报 (false positive) 的 问题 出 现 ， 则 可 能 收集 的 信息 就 不 够 。 


这 个 工具 很 容易 下 载 到 ， 并 且 不 需要 任何 配置 ， 配 置 都 是 通过 pt-stalk 进行 的 。 系 统 中 
最 好 安装 gdb 和 oprofile， 然 后 在 pt-stalk 中 配置 使 用 。 另 外 mysqld 也 需要 有 调试 符号 
信息 和 “。 当 触发 条 件 满足 时 ，pt-collect 会 很 好 地 收集 完整 的 数据 。 它 也 会 在 目录 中 创建 
时 间 惟 文件 。 在 本 书写 作 之 际 ， 这 个 工具 是 基于 GNU/Linux 的 ， 后 续 会 迁移 到 其 他 操作 
系统 ， 这 是 一 个 好 的 开始 。 


解释 结果 数据 

如 果 已 经 正确 地 设置 好 触发 条 件 ， 并 且 长 时 间 运 行 pt-stalk， 则 只 需要 等 待 足 够 长 的 时 间 

来 捕获 几 次 问题 ， 就 能 够 得 到 大 量 的 数据 来 进行 筛选 。 从 哪里 开始 最 好 呢 ? 我 们 建议 先 
根据 两 个 目的 来 查看 一 些 东 西 。 第 一 ， 检 查 问题 是 否 真 的 发 生 了 ， 因 为 有 很 多 的 样本 数 
据 需 要 检查 ,如 果 是 误 报 就 会 白白 浪费 大 量 的 时 间 。 第 二 ,是 否 有 非常 明显 的 跳跃 性 变化 。 


215: 警告 : 使 用 GDB 是 有 侵入 性 的 。 它 会 暂时 造成 服务 器 停顿 ， 尤 其 是 有 很 多 线程 的 时 候 ， 黄 至 有 
可 能 造成 前 渍 。 但 有 时 候 收 益 还 是 大 于 风险 的 。 如 果 服 务 器 本 身 问题 已 经 严重 到 无 法 提供 服务 了 ， 
那么 使 用 GBD 再 造成 一 些 暂停 也 就 无 所 谓 了 。 

注 16 : 有 时 候 为 了 “优化 ”而 不 安装 符号 信息 ， 实 际 上 这 样 做 不 会 有 多 少 优化 的 效果 ， 反 而 会 造成 诊断 
问题 更 困难 。 可 以 使 用 nm 工具 检查 是 否 安装 了 符号 信息 ， 如 果 没 有 ， 则 可 以 通过 安装 MySQL 的 
debuginfo 包 来 安装 。 
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-4% 查看 进程 列表 (process list) 中 查询 的 状态 时 ， 可 以 回答 一 些 诸如 “大 量 查询 处 于 
正在 排序 结果 的 状态 是 不 是 正常 的 ”的 问题 。 


wf 3 

二 一] 在 服务 器 正常 运行 时 捕获 一 些 样本 数据 也 很 重要 ， 而 不 只 是 在 有 问题 时 捕获 数据 。 
ae 

| 3 


查看 异常 的 查询 或 事务 的 行为 ， 以 及 异常 的 服务 器 内 部 行为 通常 都 是 最 有 收获 的 。 查 
询 或 事务 的 行为 可 以 显示 是 否 是 由 于 使 用 服务 器 的 方式 导致 的 问题 : 性 能 低下 的 SQL 
查询 、 使 用 不 当 的 索引 、 设 计 精 糕 的 数据 库 逻 辑 架 构 等 。 通 过 抓 取 TCP 流量 或 者 SHOW 
PROCESSLIST 输 出 ， 可 以 获得 查询 和 事务 出 现 的 地 方 ， 从 而 知道 用 户 对 数据 库 进行 了 什 
么 操作 。 通 过 服务 器 的 内 部 行为 则 可 以 清楚 服务 器 是 否 有 bug， 或 者 内 部 的 性 能 和 扩展 
性 是 否 有 问题 。 这 些 信息 在 类 似 的 地 方 都 可 以 看 到 ， 包 括 在 oprofile 或 者 gdb 的 输出 中 ， 
但 要 理解 则 需要 更 多 的 经 验 。 


如 果 遇 到 无 法 解释 的 错误 ， 则 最 好 将 收集 到 的 所 有 数据 打包 ， 提 交 给 技术 支持 人 员 进 行 
分 析 。MySQL 的 技术 支持 专家 应 该 能 够 从 数据 中 分 析出 原因 ， 详 细 的 数据 对 于 支持 人 
员 来 说 非常 重要 。 另 外 也 可 以 将 Percona Toolkit 中 另外 两 款 工 具 pt-mysql-summary 和 pt 
-summary 的 输出 结果 打包 ， 这 两 个 工具 会 输出 MySQL 的 状态 和 配置 信息 ， 以 及 操作 系 
统 和 硬件 的 信息 。 


Percona Toolkit 还 提供 了 一 款 快 速 检 查收 集 到 的 样本 数据 的 工具 pt-sift, ITRS 
流 导航 到 所 有 的 样本 数据 ,得 到 每 个 样本 的 汇总 信息 。 如 果 需 要 ， 也 可 以 钻 取 到 详细 信 


有 筷 。 使 用 此 工具 至 少 可 以 少 打 很 多 字 ， 少 项 很 多 次 键盘 。 


前 面 我 们 演示 了 状态 计数 器 和 线程 状态 的 例子 。 在 本 章 结束 之 前 ， 将 再 给 出 一 些 oprofile 
和 gdb 的 输出 例子 。 下 面 是 一 个 问题 服务 器 上 的 oprofile 输出 ， 你 能 找到 问题 吗 ? 


samples 4% image name app name symbol name 
893793 31.1273 /no-vmlinux /no-vmlinux (no symbols) 
325733 11.3440 mysqld mysqld Query_cache::free_memory_block() 
117732 4.1001 libc libc (no symbols) 
102349 3.5644 mysqld mysqld my hash_sort_bin 

76977 2.6808 mysqld mysqld MYSQLparse() 

71599 2.4935 libpthread libpthread pthread_mutex_trylock 

52203 1.8180 mysqld mysqld read_view_open_now 

46516 1.6200 mysqld mysqld ` Query_cache::invalidate_query_ block list() 
42153 1.4680 mysqld mysqld Query cache: :write result _data() 
37359 1.3011 mysqld mysqld MYSQLlex() 

35917 1.2508 libpthread libpthread _ pthread mutex unlock usercnt 
34248 1.1927 mysqld mysqld __intel_new_memcpy 


如 采 你 的 答案 是 “查询 缓存 ， 那 么 恭喜 你 答对 了 。 在 这 里 查询 缓存 导致 了 大 量 的 工作 ， 
并 拖 慢 了 整个 服务 器 。 这 个 问题 是 一 夜 之 间 突 然 发 生 的 ， 系 统 变 慢 了 50 倍 ， 但 这 期 间 
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系统 没有 做 过 任何 其 他 变更 。 关 闭 查询 缓存 后 系统 性 能 恢复 了 正常 。 这 个 例子 比较 简单 
地 解释 了 服务 器 内 部 行为 对 性 能 的 影响 。 


另外 一 个 重要 的 关于 等 待 分 析 的 性 能 瓶颈 分 析 工 具 是 gdb 的 堆栈 跟踪 。 下 面 是 对 一 个 线 
程 的 堆栈 跟踪 的 输出 结果 ， 为 了 便于 印刷 做 了 一 些 格式 化 : 


Thread 992 (Thread 0x7f6ee0111910 (LWP 31510)): 

#0 0x0000003be560b2f9 in pthread cond wait@@GLIBC 2.3.2 () from /libpthread.so.o 
#1 0x00007f6ee14f0965 in os event wait low () at os/osOsync.c:396 

#2 0x00007f6ee1531507 in srv_conc_enter_innodb () at srv/srvOsrv.c:1185 
#3 0x00007f6ee14c906a in innodb srv_conc_enter_innodb () at handler/ha_innodb.cc:609 
#4 ha_innodb::index read () at handler/ha_innodb.cc:5057 

#5 0x00000000006538c5 in ?? () 

#6 0x0000000000658029 in sub select() () 

#7 0x0000000000658e25 in ?? () 

#8 0x00000000006677c0 in JOIN::exec() () 

#9 0x000000000066944a in mysql select() () 

#10 0x0000000000669ea4 in handle select() () 

#11 0x00000000005ff89a in ?? () 

#12 Ox0000000000601ic5e in mysql execute command() () 

#13 0x000000000060701c in mysql parse() () 

#14 0x000000000060829a in dispatch command() () 

#15 Ox0000000000608b8a in do command(THD*) () 

#16 Ox00000000005fbdid in handle one connection () 

#17 0x0000003be560686a in start_thread () from /lib64/libpthread.so.0 
#18 0x0000003be4ede3bd in clone () from /1ib64/libc.so.6 

#19 0x0000000000000000 in ?? () 


| 

堆栈 需要 自 下 而 上 来 看 。 也 就 是 说 ， 线 程 当 前 正在 执行 的 是 pthread_cond_wait 函数 ， 
这 是 由 0s_event wait low 调用 的 。 继 续 往 下 ， 看 起 来 是 线程 试图 进入 到 InnoDB 内 核 
(srv_conc_enter_innodb), 但 被 放 入 了 一 个 内 部 队列 中 (os_event wait Low) ， 原 因 
应 该 是 内 核 中 的 线程 数 已 经 超过 innodb_ thread_concurrency 的 限制 。 当 然 ， 要 真正 地 
发 挥 堆栈 跟踪 的 价值 需要 将 很 多 的 信息 聚合 在 一 起 来 看 。 这 种 技术 是 由 Domas Mituzas 
推广 的 ， 他 以 前 是 MySQL 的 支持 工程 师 ， 开 发 了 著名 的 穷人 剖析 器 “poor man’s 
profiler 。 他 目前 在 Facebook 工作 ， 和 其 他 人 一 起 开发 了 更 多 的 收集 和 分 析 堆 栈 跟 踪 的 
工具 。 可 以 从 他 的 这 个 网 站 发 现 更 多 的 信息 : Attp://www.poormansprofiler.org 


在 Percona Toolkit 中 我 们 也 开发 了 一 个 类 似 的 穷人 剖析 器 ， 叫 做 pt-pmp。 这 是 一 个 
用 shell 和 awk 脚本 编写 的 工具 ， 可 以 将 类 似 的 堆栈 跟踪 输出 合并 到 一 起 ， 然 后 通过 
sortlunig|\sort 将 最 第 见 的 条 目 在 最 前 面 输出 。 下 面 是 一 个 堆栈 跟踪 的 完整 例子 ， 通 过 此 
工具 将 重要 的 信息 展示 了 出 来 。 使 用 了 -15 选项 指定 了 堆栈 跟踪 不 超过 $ 层 ， 以 免 因 太 
多 前 面部 分 相同 而 后 面部 分 不 同 的 跟踪 信息 而 导致 无 法 聚合 到 一 起 的 情况 ， 这 样 才能 更 
好 地 显示 到 底 在 哪里 产生 了 等 待 : 


3.4 诊断 间歇 性 问题 | 97 


$ pt-pmp -1 5 stacktraces.txt 
507 pthread_cond_wait,one_thread_per_connection_end,handle one connection, 
start_thread, clone 
398 pthread_cond_wait,os event wait low,srv conc enter innodb, 
innodb_srv_conc_enter_innodb,ha_innodb: :index_read 
83 pthread cond wait,os event wait low,sync array wait_event,mutex spin wait, 
mutex_enter_func 
10 pthread_cond_wait,os event wait low,os aio simulated handle, fil aio wait, 
io handler thread | 
pthread cond wait,os event_wait_low,srv_conc_enter_innodb, 
innodb_srv_conc enter innodb,ha innodb::general fetch 
pthread_cond wait,os event wait low,sync array wait event,rw lock s lock spin, 
rw lock s lock func 
sigwait,signal hand,start thread,clone,?? 
select,os thread sleep,srv lock timeout and monitor thread,start thread,clone 
select,os thread sleep,srv error monitor thread,start thread,clone 
select,handle connections sockets,main 
read,vio read buff,::??,my net read,cli safe read 


~ 


PPP PP un 


Ha 


pthread_cond_wait,os_event_wait_low,sync_array_wait_event,rw_lock_x_lock_low, 
rw_lock_x_lock_func 
pthread cond wait,MYSQL BIN LOG::wait for update,mysql_binlog_send, 
dispatch command,do command 

1 fsync,os file fsync,os file flush,fil flush,log write up to 
第 一 行 是 MySQL 中 非常 典型 的 空闲 线程 的 一 种 特征 ， 所 以 可 以 忽略 。 第 二 行 才 是 最 有 
意思 的 地 方 ， 看 起 来 大 量 的 线程 正在 准备 进入 到 InnoDB 内 核 中 ， 但 都 被 阻塞 了 。 从 第 
三 行 则 可 以 看 到 许多 线程 都 在 等 待 某 些 互 斥 锁 ， 但 具体 的 是 什么 锁 不 清楚 ， 因 为 堆栈 跟 
踪 更 深 的 层次 被 截断 了。 如 果 需 要 确切 地 知道 是 什么 互 斥 锁 ， 则 需要 使 用 更 大 的 -1 选项 
重 跑 一 次 。 一 般 来 说 ， 这 个 堆栈 跟踪 显示 很 多 线程 都 在 等 待 进入 到 InnoDB， 这 是 为 什 
ANE? 这 个 工具 并 不 清楚 ， 需 要 从 其 他 的 地 方 来 人手 。 


从 前 面 的 堆栈 跟踪 和 oprofile 报表 来 看 ， 如 采 不 是 MySQL 和 InnoDB 源码 方面 的 专家 ， 
这 种 类 型 的 分 析 很 难 进行 。 如 果 用 户 在 进行 此 类 分 析 时 碰 到 问题 ， 通 常 需要 求助 于 这 样 
的 专家 才 行 。 


在 下 面 的 例子 中 ， 通 过 剖析 和 等 待 分 析 都 无 法 发 现 服务 器 的 问题 ， 需 要 使 用 另外 一 种 不 
同 的 诊断 技术 。 


3.4.3 一 个 诊断 案例 

在 本 玉 中 ， 我 们 将 逐步 演示 一 个 客户 实际 磁 到 的 间歇 性 性 能 问题 的 诊断 过 程 。 这 个 案例 
的 诊断 需要 具备 MySQL, InnoDB 和 GNU/Linux 的 相关 知识 。 但 这 不 是 我 们 要 讨论 的 
重点 。 要 尝试 从 疯狂 中 找到 条 理 : 阅读 本 市 并 保持 对 之 前 的 假设 和 猜测 的 关注 ， 保 持 对 
之 前 基于 合理 性 和 基于 可 度量 的 方式 的 关注 ， 等 等 。 我 们 在 这 里 深入 研究 一 个 具体 和 详 


Hà 
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细 的 案例 ， 为 的 是 找到 一 个 简单 的 一 般 性 的 方法 。 


在 尝试 解决 其 他 人 提出 的 问题 之 前 ， 先 要 明确 两 件 事情 ， 并 且 最 好 能 够 记录 下 来 ， 以 免 


. 1. 首先 ， 问 题 是 什么 ?一 定 要 清晰 地 描述 出 来 ， 费 力 去 解决 一 个 错误 的 问题 是 常 有 
的 事 。 在 这 个 案例 中 ， 用 户 抱怨 说 每 隔 一 两 天 ， 服 务 器 就 会 拒绝 连接 ， 报 max_ 
connections 错误 。 这 种 情况 一 般 会 持续 几 秒 到 几 分 钟 ， 发 生 的 时 间 非 常 随机 。 

2. 其 次 ， 为 解决 问题 已 经 做 过 什么 操作 ? 在 这 个 案例 中 ， 用 户 没 有 为 这 个 问题 做 过 任 
何 操作 。 这 个 信息 非常 有 帮助 ， 因 为 很 少 有 其 他 事情 会 像 另 外 一 个 人 来 描述 一 件 事 
情 发 生 的 确切 顺序 和 曾 做 过 的 改变 及 其 后 果 一 样 难以 理解 〈 尤 其 是 他 们 还 是 在 经 过 
几 个 不 眼 之 夜 后 满嘴 咖啡 味道 地 在 电话 里 绝望 呐喊 的 时 候 ) 。 如 果 一 台 服 务 器 遭受 过 
未 知 的 变更 , 产生 了 未 知 的 结果 , 问题 就 更 难 解决 了 , 尤其 是 时 间 又 非常 有 限 的 时 候 。 


搞 清楚 这 两 个 问题 后 ， 就 可 以 开始 了 。 不 仅 需 要 去 了 解 服务 器 的 行为 ， 也 需要 花 点 时 间 
去 梳理 一 下 服务 器 的 状态 、 参 数 配置 ， 以 及 软 硬 件 环境 。 使 用 pt-summary 和 pt-mysql 
-summary 工具 可 以 获得 这 些 信息 。 简 单 地 说 ， 这 个 例子 中 的 服务 器 有 16 个 CPU 核心 ， 
12GB 内 存 ， 数 据 量 有 900MB ， 且 全 部 采用 InnoDB 引擎 ， 存储 在 一 块 SSD 固态 硬盘 上 。 
服务 器 的 操作 系统 是 GNU/Linux, MySQL 版 本 5.1.37， 使 用 的 存储 引 警 版 本 是 InnoDB 
plugin 1.0.4。 之 前 我 们 已 经 为 这 个 客户 解决 过 一 些 异 常 问题 ， 所 以 对 其 系统 已 经 比较 了 
解 。 过 去 数据 库 从 来 没有 出 过 问题 ， 大 多 数 问题 都 是 由 于 应 用 程序 的 不 良 行为 导致 的 。 
初步 检查 了 服务 器 也 没有 发 现 明 显 的 问题 。 查 询 有 一 些 优化 的 空间 ， 但 大 多 数 情况 下 响 
应 时 间 都 不 到 10 毫秒 。 所 以 我 们 认为 正常 情况 下 数据 库 服 务 器 运行 良好 (这 一 点 比较 
重要 ， 因 为 很 多 问题 一 开始 只 是 零星 地 出 现 ， 慢 慢 地 款 积 成 大 问题 。 比 如 RAID 阵列 中 
坏 了 一 块 硬盘 这 种 情况 )。 


这 个 案例 研究 可 能 有 点 乏味 。 这 里 我 们 不 厌 其 烦 地 展示 所 有 的 诊断 数据 ， 解 释 所 有 
。 的 细节 ， 对 几 个 不 同 的 可 能 性 深入 进去 追查 原因 。 在 实际 工作 中 ， 其 实 不 会 对 每 个 
s， 问 题 都 采用 这 样 缓慢 而 元 长 的 方式 ， 也 不 推荐 大 家 这 样 做 。 这 里 只 是 为 了 更 好 地 演 
示 案 例 而 已 。 






我 们 安装 好 诊断 工具 ， 在 Threads connected 上 设置 触发 条 件 ， 正 常情 况 下 Threads_ 
connected 的 值 一般 都 少 于 15， 但 在 发 生 问题 时 该 值 可 能 疾 升 到 几 百 。 下 面 我 们 会 先 给 
出 一 个 样本 数据 的 收集 结果 ， 后 续 再 来 评论 。 首 先 试 试看 ， 你 能 否 从 大 量 的 输出 中 找 出 
问题 的 重点 在 哪里 : 
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。 查询 活动 从 1 000 到 10 000 的 QPS， 其 中 有 很 多 是 “垃圾 ”命令 ， 比 如 ping 一 下 服 
务 器 确认 其 是 否 存活 。 其 余 的 大 部 分 是 SELECT 命令 ， 大 约 每 秒 300 ~ 2 000 次 ， 只 
有 很 少 的 UPDATE 命令 (大约 每 秒 五 次 )。 
。 在 SHOW PROCESSLIST 中 主要 有 两 种 类 型 的 查询 ， 只 是 在 WHERE 条 件 中 的 值 不 一 样 。 
下 面 是 查询 状态 的 汇总 数据 : 
$ grep State: processlist.txt | sort | uniq -c | sort -rn 
161 State: Copying to tmp table 
156 State: Sorting result 
136 State: statistics 
50 State: Sending data 
24 State: NULL 
13 State: 
7 State: freeing items 
State: cleaning up 


7 
1 State: storing result in query cache 
1 State: end 


。 ”大 部 分 查询 都 是 索引 扫描 或 者 范围 扫描 ， 很 少 有 全 表 扫 描 或 者 表 关 联 的 情况 。 

。 每 秒 大 约 有 20 ~ 100 次 排序 ， 需 要 排序 的 行 大 约 有 1 000 到 12 000 行 。 

。 每 秒 大 约 创 建 12 ~ 90 个 临时 表 ， 其 中 有 3 ~ 5 个 是 磁盘 临时 表 。 

。 没有 表 锁 或 者 查询 缓存 的 问题 。 

。 在 SHOW INNODB STATUS 中 可 以 观察 到 主要 的 线程 状态 是 “flushing buffer pool 
pages”， 但 只 有 很 少 的 脏 页 需要 刷新 (Innodb_buffer pool pages_dirty)， 
Innodb buffer pool pages flushed 也 没有 太 大 的 变化 ， 日志 顺序 号 (log sequence 
number) 和 最 后 检查 点 (last checkpoint) 之 间 的 差距 也 很 少 。InnoDB 缓存 池 也 还 
远 没 有 用 满 ; 缓存 池 比 数据 集 还 要 大 很 多 。 大 多 数 线程 在 等 待 InnoDB 队列 “12 
queries inside InnoDB, 495 queries in queue”(12 个 查询 在 InnoDB 内 部 执行 ，495 
个 查询 在 队列 中 )。 

o 每 秒 捕获 一 次 iostat 输出， 持续 30 秒 。 从 输出 可 以 发 现 没 有 磁盘 读 ， 而 写 操 作 则 接 
近 了 “RIER”, PA IO 平均 等 待 时 间 和 队列 长 度 都 非常 高 。 下 面 是 部 分 和 输出 结果 ， 
为 便于 打印 输出 ， 这 里 截取 了 部 分 字段 : 


r/s w/s rsec/s wsec/s avgqu-sz await svctm %util 


1.00 500.00 8.00 86216.00 5.05 11.95 0.59 29.40 
0.00 451.00 0.00 206248.00 123.25 238.00 1.90 85.90 
0.00 565.00 0.00 269792.00 143.80 245.43 1.77 100.00 
0.00 649.00 0.00 309248.00 143.01 231.30 1.54 100.10 
0.00 589.00 0.00 281784.00 142.58 232.15 1.70 100.00 
0.00 384.00 0.00 162008.00 71.80 238.39 1.73 66.60 
0.00 14.00 0.00 400.00 0.01 0.93 0.36 0.50 
0.00 13.00 0.00 248.00 0.01 0.92 0.23 0.30 
0.00 13.00 0.00 408.00 0.01 0.92 0.23 0.30 
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@ vmstat 的 输出 也 验证 了 iostat 的 结果 ， 并 且 CPU 的 大 部 分 时 间 是 空闲 的 ， 只 是 偶尔 
在 写 尖 峰 时 有 一 些 VO 等 待 时 间 (最 高 约 占 9% 的 CPU). 


是 不 是 感觉 脑袋 里 塞 满 了 东西 ? 当 你 深入 一 个 系统 的 细节 并 且 没 有 任何 先入为主 (或 者 
故意 忽略 了 ) 的 观念 时 ， 很 容易 磁 到 这 种 情况 ， 最 终 只 能 检查 所 有 可 能 的 情况 。 很 多 被 
检查 的 地 方 最 终 要 么 是 完全 正常 的 ， 要 么 发 现 是 问题 导致 的 结果 而 不 是 问题 产生 的 原因 。 
尽管 此 时 我 们 会 有 很 多 关于 问题 原因 的 猜测 ， 但 还 是 需要 继续 检查 下 面 给 出 的 oprofile 
报表 ， 并 且 在 给 出 更 多 数据 的 时 候 添 加 一 些 评论 和 解释 : 


samples % image name app name symbol name 

473653 63.5323 no-vmlinux no-vmlinux /no-vmlinux 
95164 12.7646 mysqld mysqld /usr/libexec/mysqld 
53107 7.1234 libc-2.10.1.so libc-2.10.1.so memcpy 
13698 1.8373 ha innodb.so ha_innodb.so build _template() 
13059 1.7516 ha_innodb.so ha innodb.so btr search guess on hash 
11724 1.5726 ha innodb.so ha innodb.so row sel store mysql rec 
8872 1.1900 ha innodb.so ha_innodb.so rec init offsets comp ordinary 
7577 1.0163 ha innodb.so ha innodb.so row search for mysql | 
6030 0.8088 ha_innodb.so ha_innodb.so rec get offsets func 
5268 0.7066 ha_innodb.so  ha_innodb.so — cmp_dtuple rec with match 


这 里 大 多 数 符号 (symbol) 代表 的 意义 并 不 是 那么 明显 ， 而 大 部 分 的 时 间 都 消耗 在 内 核 
符号 (no-vmlinux) ”和 一 个 通用 的 mysqld 符号 中 , 这 两 个 符号 无 法 告诉 我 们 更 多 的 细 
节 宇 s。 不 要 被 多 个 ha_innodb.so 符 号 分 散 了 注意 力 ,看 一 下 它们 占用 的 百分比 就 知道 了 ， 
不 管 它们 在 做 什么 ， 其 占用 的 时 间 都 很 少 ， 所 以 应 该 不 会 是 问题 所 在 。 这 个 例子 说 明 ， 
仅仅 从 剖析 报表 出 发 是 无 法 得 到 解决 问题 的 结果 的 。 我 们 追踪 的 数据 是 错误 的 。 如 果 遇 
到 上 述 例子 这 样 的 情况 ， 需 要 继续 检查 其 他 的 数据 ， 寻 找 问题 根源 更 明显 的 证 据 。 


到 这 里 ， 如 果 希 望 从 gdb 的 堆栈 跟踪 进行 等 待 分 析 ， 请 参考 3.4.2 节 的 最 后 部 分 内 容 。 
那个 案例 就 是 我 们 当前 正在 诊断 的 这 个 问题 。 回 想 一 下 ， 当 时 的 堆栈 跟踪 分 析 的 结果 是 
正在 等 待 进入 到 InnoDB AK, ATLA SHOW INNODB STATUS 的 输出 结果 中 有 “12 queries 


inside InnoDB, 495 queries in queue’, 


从 上 面 的 分 析 发 现 问题 的 关键 点 了 吗 ? 没 有。 我 们 看 到 了 许多 不 同 问 题 可 能 的 症状 ， 根 
据 经 验 和 直觉 可 以 推测 至 少 有 两 个 可 能 的 原因 。 但 也 有 一 些 没 有 意义 的 地 方 。 如 果 再 次 
检查 一 下 iostat 的 输出 ， 可 以 发 现 wsec/s 列 显 示 了 至 少 在 6 秒 内 ， 服 务 器 每 秒 写 入 了 几 
A MB 的 数据 到 磁盘 。 每 个 磁盘 扁 区 是 512B， 所 以 这 里 采样 的 结果 显示 每 秒 最 多 写 入 
了 150MB 数据 。 然 而 整个 数据 库 也 只 有 900MB 大 小 ， 系 统 的 压力 又 主要 是 SELECT 


注 17 : 理论 上 ， 我们 需要 内 核 符号 (kernel symbol) 才能 理解 内 核 中 发 生 了 什么 。 实 际 上 ， 安 装 内 核 符号 
可 能 会 比较 麻烦 ， 并 且 从 vmstat 的 输出 可 以 看 到 系统 CPU 的 利用 率 很 低 ， 所 以 即使 安装 了 ,很 可 
能 也 会 发 现 内 核 大 多 数 是 处 于 “sleeping” (ER) 状态 的 。 

注 18 : 这 看 起 来 是 一 个 编译 有 问题 的 MySQL 版 本 。 
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查询 。 怎 么 会 出 现 这 样 的 情况 呢 ? 


对 一 个 系统 进行 检查 的 时 候 ， 应 该 先 问 一 下 自己 ， 是 否 也 磁 到 过 上 面 这 种 明显 不 合理 的 
问题 ， 如 果 有 就 需要 深入 调查 。 应 该 尽量 跟 进 每 一 个 可 能 的 问题 直到 发 现 结果 ， 而 不 要 
被 离 题 太 多 的 各 种 情况 分 散 了 注意 力 ， 以 臻 最 后 都 忘记 了 最 初 要 调查 的 问题 。 可 以 把 问 
题写 在 小 纸 条 上 ， 检 查 一 个 划 掉 一 个 ， 最 后 再 确认 一 遍 所 有 的 问题 都 已 经 完成 调查 六 2?。 


在 这 一 点 上 ， 我 们 可 以 直接 得 到 一 个 结论 ， 但 却 可 能 是 错误 的 。 可 以 看 到 主线 程 的 状态 
是 InnoDB 正在 刷新 脏 页 。 在 状态 输出 中 出 现 这 样 的 情况 ， 一 般 都 意味 着 刷新 已 经 延迟 
了 。 我 们 知道 这 个 版 本 的 InnoDB 存在 “疯狂 刷新 ”的 问题 (或 者 也 被 称 为 检查 点 停顿 )。 
发 生 这 样 的 情况 是 因为 InnoDB 没有 按时 间 均 匀 分 布 刷 新 请 求 ， 而 是 隔 一 段 时 间 突 然 请 
求 一 次 强制 检查 点 导致 大 量 刷新 操作 。 这 种 机 制 可 能 会 导致 InnoDB 内 部 发 生 严重 的 阻 
塞 ， 导 致 所 有 的 操作 需要 排队 等 待 进入 内 核 ， 从 而 引发 InnoDB 上 一 层 的 服务 器 产生 堆 
积 。 在 第 2 章 中 演示 的 例子 就 是 一 个 因为 “疯狂 刷新 ”而 导致 性 能 周期 性 下 跌 的 问题 。 
很 多 类 似 的 问题 都 是 由 于 强制 检查 点 导致 的 ， 但 在 这 个 案例 中 却 不 是 这 个 问题 。 有 很 多 
方法 可 以 证 明 ， 最 简单 的 方法 是 查看 SHOW STATUS 的 计数 器 ， 追 踪 一 下 Innodb buffer 
pool_pages_flushed 的 变化 ， 之 前 已 经 提 到 了 ， 这 个 值 并 没有 怎么 增加 。 另 外 ， 注 意 到 
InnoDB 缓冲 池 中 也 没有 大 量 的 脏 页 需要 刷新 ， 肯 定 不 到 几 百 MB。 这 并 不 值得 惊讶 ， 因 
为 这 个 服务 器 的 工作 压力 几乎 都 是 SELECT 查询 。 所 以 可 以 得 到 一 个 初步 的 结论 ， 我 们 要 
关注 的 不 是 InnoDB 刷新 的 问题 ， 而 应 该 是 刷新 延迟 的 问题 ， 但 这 只 是 一 个 现象 ， 而 不 
是 原因 。 根 本 的 原因 是 磁盘 的 IO 已 经 饱和 ，InnoDB 无 法 完成 其 7O 操作。 至 此 我 们 消 
除了 一 个 可 能 的 原因 ， 可 以 从 基于 直觉 的 原因 列表 中 将 其 划 掉 了 。 


从 结果 中 将 原因 区 别 出 来 有 时 候 会 很 困难 。 当 一 个 问题 看 起 来 很 眼熟 的 时 候 ， 也 可 以 跳 
过 调查 阶段 直接 诊断 。 当 然 最 好 不 要 走 这 样 的 捷径 ， 但 有 时 候 依靠 直觉 也 非常 重要 。 如 
采 有 什么 地 方 看 起 来 很 眼熟 ， 明 智 的 做 法 还 是 需要 伦 一 点 时 间 去 测量 一 下 其 充分 必要 条 
件 ， 以 证 明 其 是 否 就 是 问题 所 在 。 这 样 可 以 市 省 大 量 时 间 ， 避 免 查看 大 量 其 他 的 系统 和 
性 能 数据 。 不 过 也 不 要 过 于 相信 和 直觉 而 直接 下 结论 ， 不 要 说 “我 之 前 见 过 这 样 的 问题 ， 
肯定 就 是 同样 的 问题 "。 而 是 应 该 去 收集 相关 的 证 据 ， 尤 其 是 能 证 明 直 觉 的 证 据 。 

下 一 步 是 尝试 找 出 是 什么 导致 了 服务 器 的 IO 利用 率 异常 的 高 。 首 先 应 该 注意 到 前 面 已 
经 提 到 过 的 “服务 器 有 连续 几 秒 内 每 秒 写 入 了 儿 百 MB 数据 到 磁盘 ， 而 数据 库 一 共 只 有 
900MB 大 小 ， 怎 么 会 发 生 这 样 的 情况 ?“， 注 意 到 这 里 已 经 隐 式 地 假设 是 数据 库 导致 了 
磁盘 写 入 。 那 么 有 什么 证 据 表 明 是 数据 库 导致 的 呢 ? 当 你 有 未 经 证 实 的 想法 ， 或 者 觉得 
不 可 思议 时 ， 如 果 可 能 的 话 应 该 去 进行 测量 ， 然 后 排除 掉 一 些 怀 疑 。 


注 19 : 或 者 挨个 说 法 ， 不 要 把 所 有 的 鸡 绰 部 混 在 一 个 篮子 里 。 
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我 们 看 到 了 两 种 可 能 性 : 要 么 是 数据 库 导 致 了 I/O (如 果 能 找到 源头 的 话 ， 那 么 可 能 训 
找到 了 问题 的 原因 ) ; 要 么 不 是 数据 库 导 致 了 所 有 的 IO 而 是 其 他 什么 导致 的 ， 而 系统 因 
为 缺少 VO 资源 影响 了 数据 库 性 能 。 我 们 也 很 小 心地 尽力 避免 引入 另外 一 个 隐 式 的 假设 : 
磁盘 很 忙 并 不 一 定 意味 着 MySQL 会 有 问题 。 要 记 住 ， 这 个 服务 器 主要 的 压力 是 内 存 读 
取 ， 所 以 也 很 可 能 出 现 磁 盘 长 时 间 无 法 响应 但 没有 造成 严重 问题 的 现象 。 

如 果 你 一 直 跟 随 我 们 的 推理 逻辑 ， 就 可 以 发 现 还 需要 回头 检查 一 下 另外 一 个 假设 。 我 们 
已 经 知道 磁盘 设备 很 忙 ， 因 为 其 等 待 时 间 很 高 。 对 于 固态 硬盘 来 说 ， 其 I/O 平均 等 待 时 
间 一 般 不 会 超过 1/4 秒 。 实 际 上 ， 从 iostat 的 输出 结果 也 可 以 发 现 磁盘 本 身 的 响应 还 是 
很 快 的 ， 但 请 求 在 块 设备 队列 中 等 待 很 长 的 时 间 才 能 进入 到 磁盘 设备 。 但 要 记 住 ， 这 只 
是 iostat 的 输出 结果 ， 也 可 能 是 错误 的 信息 。 


究竟 是 什么 导致 了 性 能 低下 ? 
当 一 个 资源 变 得 效率 低下 时 ， 应 该 了 解 一 下 为 什么 会 这 样 。 有 如 下 可 能 的 原因 : 


1. 资源 被 过 度 使 用 ， 余 量 已 经 不 足以 正常 工作 。 
2. 资源 没有 被 正确 配置 。 
3. 资源 已 经 损坏 或 者 失灵 。 


回 到 上 面 的 例子 中 ，iostat 的 输出 显示 可 能 是 磁盘 的 工作 负载 太 大 ， 也 可 能 是 配置 


不 正确 (在 磁盘 响应 很 快 的 情况 下 ， 为 什么 I/O 请 求 需要 排队 这 么 长 时 间 才 能 进入 
到 磁盘 ? )。 然 而 ， 比 较 系 统 的 需求 和 现 有 容量 对 于 确定 问题 在 哪里 是 很 重要 的 一 
部 分 。 大 量 的 基准 测试 证 明 这 个 客户 使 用 的 这 种 SSD 是 无 法 支撑 几 百 MB/s 的 写 
操作 的 。 所 以 ,尽管 iostat 的 结果 表明 磁盘 的 响应 是 正常 的 ,也 不 一 定 是 完全 正确 的 。 
在 这 个 案例 中 ， 我 们 没有 办 法 证 明 磁 盘 的 响应 比 iostat 的 结果 中 所 说 的 要 慢 ， 但 这 
种 情况 还 是 有 可 能 的 。 所 以 这 不 能 改变 我 们 的 看 法 : 可 能 是 磁盘 被 滥用 ”， 或 者 
是 错误 的 配置 ， 或 者 两 者 兼 而 有 之 ， 是 性 能 低下 的 罪魁 祸首 。 





在 检查 过 所 有 诊断 数据 之 后 ， 接 下 来 的 任务 就 很 明显 了 : 测量 出 什么 导致 了 I/O 消耗 。 
不 幸 的 是 ， 客 户 当 前 使 用 的 GNU/Linux 版 本 对 此 的 支持 不 力 。 通 过 一 些 工 作 我 们 可 以 做 

一 些 相对 准确 的 猜测 ， 但 首先 还 是 需要 探索 一 下 其 他 的 可 能 性 。 我 们 可 以 测量 有 多 少 IO 

来 自 MySQL， 但 客户 使 用 的 MySQL 版 本 较 低 以 致 缺乏 一 些 诊断 功能 ， 所 以 也 无 法 提供 
确切 有 利 的 支持 。 


注 20 : 也 有 人 会 拨打 1-800 热线 电话 。 
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作为 替代 ， 基 于 我 们 已 经 知道 MySQL 如 何 使 用 磁盘 ， 我 们 来 观察 MySQL 的 VO 情况 。 通 
常 来 说 ，MySQL 只 会 写 数据 、 日 志 、 排 序 文件 和 临时 表 到 磁盘 。 从 前 面 的 状态 计数 器 
和 其 他 信息 来 看 ， 首 先 可 以 排除 数据 和 日 志 的 写 人 问题。 那么 ， 只 能 假设 MySQL 突然 
写 入 大量 数 据 到 临时 表 或 者 排序 文件 ， 如 何 来 观察 这 种 情况 呢 ? 有 两 个 简单 的 方法 : 一 
是 观察 磁盘 的 可 用 空间 ， 二 是 通过 lsof 命令 观察 服务 器 打开 的 文件 句柄 。 这 两 个 方法 我 
们 都 采用 了 ， 结 果 也 足以 满足 我 们 的 需求 。 下 面 是 问题 期 间 每 秒 运 行 df-h 的 结果 : 


Filesystem Size Used Avail Use% NMounted on 
/dev/sda3 58G 20G 36G 36% 
/dev/sda3 58G 20G 36G 36% 
/dev/sda3 58G 19G 36G 35% 
/dev/sda3 58G 19G 36G 35% 
/dev/sda3 58G 19G 36G 35% 
/dev/sda3 58G 19G 36G 35% 
/dev/sda3 58G 18G 37G 33% 
/dev/sda3 58G 18G 37G 33% 
/dev/sda3 58G 18G 37G 33% 


下 面 则 是 1sof 的 数据 ， 因 为 菜 些 原因 我 们 每 五 秒 才 收 集 一 次 。 我 们 简单 地 将 mysgqid 在 
/tmp 中 打开 的 文件 大 小 做 了 加 总 ， 并 且 把 总 大 小 和 采样 时 的 时 间 惟 一 起 输出 到 结果 文件 
中 : 

$ awk ' 


/mysqld.*tmp/ { 
total += $7; 


vm TMA ML MAL ML ML ML RL SR 


a Mar 28/ && total { 
printf "%s %7.2f MB\n", $4, total/1024/1024; 
total = 0; 
}' lsof.txt 
18:34:38 1655.21 MB 
18:34:43 1.88 MB 
18:34:48 1.88 MB 
18:34:53 1.88 MB 
18:34:58 1.88 MB 
从 这 个 数据 可 以 看 出 ， 在 问题 之 初 MySQL KAS T 1.5GB 的 数据 到 临时 表 ， 这 和 之 前 
在 SHOW PROCESSLIST HAHAHA “Copying to tmp table” 相 吻合 。 这 个 证 据 表明 可 能 是 
某 些 效 率 低 下 的 查询 风暴 耗 尽 了 磁盘 资源 。 根 据 我 们 的 工作 直觉 ， 出 现 这 种 情况 比较 普 
遍 的 一 个 原因 是 缓存 失效 。 当 memcached 中 所 有 缓存 的 条 目 同时 失效 ， 而 又 有 很 多 应 用 
需要 同时 访问 的 时 个， 就 会 出 现 这 种 情况 。 我 们 给 开发 人 员 出 示 了 部 分 采样 到 的 查询 ， 
并 讨论 这 些 查询 的 作用 。 实 际 情况 是 ， 缓 存 同时 失效 就 是 罪魁 祸首 (这 验证 了 我 们 的 直 
觉 ) 。 一 方面 开发 人 员 在 应 用 层面 解决 缓存 失效 的 问题 ; 另 一 方面 我 们 也 修改 了 查询 ， 旭 
免 使 用 磁盘 临时 表 。 这 两 个 方法 的 任何 一 个 都 可 以 解决 问题 ， 当 然 最 好 是 两 个 都 实施 。 
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如 果 读 者 一 直 顺 着 我 们 前 面 的 思路 读 下 来 ， 可 能 还 会 有 一 些 疑 问 。 在 这 里 我 们 可 以 稍微 
解释 一 下 〈 我 们 在 本 章 引用 的 方法 在 审阅 的 时 候 已 经 检查 过 一 遍 ) : 


为 什么 我 们 不 一 开始 就 优化 慢 查 询 ? 
因为 问题 不 在 于 慢 查 询 ， 而 是 “ 太 多 连接 ”的 错误 。 当 然 ， 因 为 慢 查 询 ， 太 多 查询 
的 时 间 过 长 而 导致 连接 堆积 在 逻辑 上 也 是 成 立 的 。 但 也 有 可 能 是 其 他 原因 导致 连接 
过 多 。 如 果 没 有 找到 问题 的 真正 原因 ， 那 么 回头 查看 慢 查 询 或 其 他 可 能 的 原因 ， 看 
是 否 能 够 改善 是 很 自然 的 事情 。 但 这 样 做 大 多 时 候 会 让 问题 变 得 更 粳 。 如 果 你 把 
一 辆 车 开 到 机 械 师 那里 抱怨 说 有 异 响 ， 假 如 机 械 师 没有 指出 异 响 的 原因 ， 也 不 去 检 
查 其 他 的 地 方 ， 而 是 直接 做 了 四 轮 平衡 和 更 换 变 速 箱 油 ， 然 后 把 账单 扔 给 你 ， 你 也 
RWA REE? 

但 是 查询 由 于 糟糕 的 执行 计划 而 执行 缓慢 不 是 一 种 警告 吗 ? 
在 事故 中 确实 如 此 。 但 慢 查询 到 底 是 原因 还 是 结果 ? 在 深入 调查 前 是 无 法 知晓 的 。 
记 住 ， 在 正常 的 时 候 这 个 查询 也 是 正常 运行 的 。 一 个 查询 需要 执行 filesort 和 创建 临 

时 表 并 不 一 定 意味 着 就 是 有 问题 的 。 尽 管 消 除 filesort 和 临时 表 通 常 来 说 是 “最 佳 实 

践 ”。 
通常 的 “最 佳 实践 ”自然 有 它 的 道理 ,但 不 一 定 是 解决 某 些 特殊 问题 的 “灵丹妙药 ”。 
比如 说 问题 可 能 是 因为 很 简单 的 配置 错误 。 我 们 磁 到 过 很 多 这 样 的 案例 ， 问 题 本 来 
是 由 于 错误 的 配置 导致 的 ， 却 去 优化 查询 ， 这 不 但 浪费 了 时 间 ， 也 使 得 真正 问题 被 
解决 的 时 间 被 拖延 了 。 

如 果 缓 存 项 被 重新 生成 了 很 多 次 ， 是 不 是 会 导致 产生 很 多 同样 的 查询 呢 ? 
这 个 问题 我 们 确实 还 没有 调查 到 。 如 果 是 多 线程 重新 生成 同样 的 缓存 项 ， 那 么 确实 
有 可 能 导致 产生 很 多 同样 的 查询 (这 和 很 多 同类 型 的 查询 不 同 ， 比 如 WHERE 子 句 中 
的 参数 可 能 不 一 样 ) 。 注 意 到 这 样 会 刺激 我 们 的 直觉 ， 并 更 快 地 带 我 们 找到 问题 的 解 
决 方案 。 

每 秒 有 几 百 次 SELECT 查询 ， 但 只 有 五 次 UPDATE。 怎 么 能 确定 这 五 次 UPDATE 的 压力 不 会 

导致 问题 呢 ? 
这 些 UPDATE 有 可 能 对 服务 器 造成 很 大 的 压力 。 我 们 没有 将 真正 的 查询 语句 展示 出 来 ， 
因为 这 样 可 能 会 将 事情 搞 得 更 杂乱 。 但 有 一 点 很 明确 ， 某 种 查询 的 绝对 数量 不 一 定 
有 意义 。 

IO 风暴 最 初 的 证 据 看 起 来 不 是 很 充分 ? 
是 的 ， 确 实 是 这 样 。 有 很 多 种 解释 可 以 说 明 为 什么 一 个 这 么 小 的 数据 库 可 以 产生 这 
么 大 量 的 写 人 磁盘， 或 者 说 为 什么 磁盘 的 可 用 空间 下 降 得 这 么 快 。 这 个 问题 中 使 用 
的 MySQL 和 GNU/Linux 版 本 都 很 难 对 一 些 东 西 进行 测量 (但 不 是 说 完全 不 可 能 )。 


注 21 : 就 像 常 说 的 “ 当 你 手中 有 了 锤子 ， 所 有 的 东西 看 起 来 都 是 钉子 ”一 样 。 
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尽管 在 很 多 时 候 我 们 可 能 扮演 “魔鬼 代言 人 ”的 角色 ， 但 我 们 还 是 以 尽量 平衡 成 本 
和 沫 在 的 利益 为 第 一 优先 级 。 越 是 难以 准确 测量 的 时 候 ， 成 本 /收益 比 越 攀升 ， 我 
们 也 更 愿意 接受 不 确定 性 。 

之 前 说 过 “数据 库 过 去 从 来 没 出 过 问题 ”是 一 种 偏见 吗 ? 
是 的 ， 这 就 是 偏见 。 如 果 抓 住 问题 ， 很 好 ， 如 果 没 有 ， 也 可 以 是 证 明 我 们 都 有 偏见 
的 很 好 例子 。 


至 此 我 们 要 结束 这 个 案例 的 学 习 了 。 需 要 指出 的 是 ， 如 果 使 用 了 诸如 New Relic 这 样 的 
剖析 工具 ， 即 使 没有 我 们 的 参与 ， 也 可 能 解决 这 个 问题 。 


3.5 其 他 剖析 工具 


我 们 已 经 演示 了 很 多 剖析 MySQL、 操 作 系 统 及 查询 的 方法 。 我 们 也 演示 了 那些 我 们 觉 
得 很 有 用 的 案例 。 当 然 ， 通过 本 书 ， 我 们 还 会 展示 更 多 工具 和 技术 来 检查 和 测量 系统 。 
但 是 等 一 下 ， 本 章 还 有 更 多 工具 没 介绍 呢 。 


3.5.1 使 用 USER_STATISTICS 表 


Percona Server 和 MariaDB 都 引入 了 一 些 额 外 的 对 象 级 别 使 用 统计 的 INFORMATION 
SCHEMA Š, KERIEN Google 开发 的 。 这 些 表 对 于 查找 服务 器 各 部 分 的 实际 使 用 情 
况 非常 有 帮助 。 在 一 个 大 型 企业 中 ，DBA 负责 管理 数据 库 ， 但 其 对 开发 缺少 话语 权 ， 那 
么 通过 这 些 表 就 可 以 对 数据 库 活 动 进行 测量 和 审计 ， 并 且 强 制 执 行使 用 策略 。 对 于 像 共 
享 主 机 环境 这 样 的 多 租户 环境 也 同样 有 有 用。 另外， 在 查找 性 能 问题 时 ， 这 些 表 也 可 以 帮 
助 找 出 数据 库 中 什么 地 方 花费 了 最 多 的 时 间 ， 或 者 什么 表 或 索引 使 用 得 最 频繁 ， 抑 或 最 
不 频繁 。 下 面 就 是 这 些 表 : 
shes SHOW TABLES FROM INFORMATION _SCHEMA sate '%_STATISTICS' ; 


| CLIENT STATISTICS | 
| INDEX STATISTICS | 
| TABLE STATISTICS | 
| THREAD STATISTICS = 4 
| USER STATISTICS | 


这 里 我 们 不 会 详细 地 演示 针对 这 些 表 的 所 有 有 用 的 查询 ， 但 有 几 个 要 后 要 说 明 一 下 : 


。 可 以 查找 使 用 得 最 多 或 者 使 用 得 最 少 的 表 和 索引 ， 通 过 读 取 次 数 或 者 更 新 次 数 ， 或 
者 两 者 一 起 排序 。 
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。 可 以 查找 出 从 未 使 用 的 索引 ， 可 以 考虑 删除 之 。 
。 可 以 看 看 复制 用 户 的 CONNECTED TIME 和 BUSY_TIME， 以 确认 复制 是 否 会 很 难 跟 上 主 
库 的 进度 。 


在 MySQL 5.6 中 ，Performance Schema 中 也 添加 了 很 多 类 似 上 面 这 些 功 能 的 表 。 


3.5.2 使 用 strace 


strace 工具 可 以 调查 系统 调用 的 情况 。 有 好 几 种 可 以 使 用 的 方法 ， 其 中 一 种 是 计算 系统 
调用 的 时 间 并 打印 出 来 : 
$ strace -cfp $(pidof mysqld) 


Process 12648 attached with 17 threads - interrupt to quit 
“CProcess 12648 detached 


% time seconds usecs/call calls errors syscall 
73.51 0.608908 13839 44 select 
24.38 0.201969 20197 10 futex 

0.76 0.006313 1 11233 3 read 
0.60 0.004999 625 8 unlink 
0.48 0.003969 22 180 write 
0.23 0.001870 11 178 pread64 
0.04 0.000304 0 5538 _llseek 


[some lines omitted for brevity] 


100.00 0.828375 17834 46 total 


这 种 用 法 和 oprofile 有 点 像 。 但 是 oprofile 还 可 以 剖析 程序 的 内 部 符号 ， 而 不 仅仅 是 系统 

调用 。 另 外 ,strace 拦 截 系统 调用 使 用 的 是 不 同 于 oprofile 的 技术 ,这 会 有 一 些 不 可 预期 性 ， 
开销 也 更 大 些 。strace 度量 时 使 用 的 是 实际 时 间 ， 而 oprofile 使 用 的 是 花费 的 CPU 周期 。 
举 个 例子 ， 当 1/O 等 待 出 现 问 题 的 时 候 ，strace 能 将 它们 显示 出 来 ， 因 为 它 从 诸如 read 

或 者 pread64 这 样 的 系统 调用 开始 计时 ， 直 到 调用 结束 。 但 oprofile 不 会 这 样 ， 因 为 UO <12] 
系统 调用 并 不 会 真正 地 消耗 CPU 周期 ， 而 只 是 等 待 IO 完成 而 已 。 


我 们 会 在 需要 的 时 候 使 用 oprofile， 因 为 strace 对 像 mysqld 这 样 有 大 量 线程 的 场景 会 产 
生 一 些 副 作用 。 当 strace 附加 上 去 后 ，mysgqld 的 运行 会 变 得 很 慢 ， 因 此 不 适合 在 产品 
环境 中 使 用 。 但 在 某 些 场景 中 strace 还 是 相当 有 用 的 ，Percona Toolkit 中 有 一 个 叫做 pt 
-ioprofile 的 工具 就 是 使 用 strace 来 生成 IO 活动 的 剖析 报告 的 。 这 个 工具 很 有 帮助 ， 可 
以 证 明 或 者 驳斥 某 些 难以 测量 的 情况 下 的 一 些 观点 ， 此 时 其 他 方法 很 难 达 到 目的 《如果 
运行 的 是 MySQL 5.6, {EJH Performance Schema 也 可 以 达到 目的 )。 
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3.6 BE 


本 章 给 出 了 一 些 基 本 的 思路 和 技术 ， 有 助 于 你 成 功 地 进行 性 能 优化 。 正 确 的 思维 方式 是 
开启 系统 的 全 部 潜力 和 应 用 本 书 其 他 章节 提供 的 知识 的 关键 。 下 面 是 我 们 试图 演示 的 一 
些 基 本 知识 反 : 


。 我 们 认为 定义 性 能 最 有 效 的 方法 是 响应 时 间 。 

。 如果 无 法 测量 就 无 法 有 效 地 优化 ， 所 以 性 能 优化 工作 需要 基于 高 质量 、 全 方位 及 完 
整 的 响应 时 间 测 量 。 

。 测量 的 最 佳 开 始点 是 应 用 程序 ， 而 不 是 数据 库 。 即 使 问题 出 在 底层 的 数据 库 ， 借 助 
良好 的 测量 也 可 以 很 容易 地 发 现 问题 。 

。 大 多 数 系统 无 法 完整 地 测量 ， 测 量 有 时 候 也 会 有 错误 的 结果 。 但 也 可 以 想 办 法 绕 过 
一 些 限 制 ， 并 得 到 好 的 结果 (但 是 要 能 意识 到 所 使 用 的 方法 的 缺陷 和 不 确定 性 在 哪 
里 )。 

。 完整 的 测量 会 产生 大 量 需 要 分 析 的 数据 ， 所 以 需要 用 到 剖析 器 。 这 是 最 佳 的 工具 ， 
可 以 帮助 将 重要 的 问题 冒 泡 到 前 面 ， 这 样 就 可 以 决定 从 哪里 开始 分 析 会 比较 好 。 

。 剖析 报告 是 一 种 汇总 信息 ， 掩 盖 和 丢弃 了 太 多 细 市 。 而 且 它 不 会 告诉 你 缺少 了 什么 ， 
所 以 完全 依赖 剖析 报告 也 是 不 明智 的 。 

。 有 两 种 消耗 时 间 的 操作 : 工作 或 者 等 待 。 大 多 数 剖 析 器 只 能 测量 因为 工作 而 消耗 的 
时 间 ， 所 以 等 待 分 析 有 时 候 是 很 有 用 的 补充 ， 尤 其 是 当 CPU 利用 率 很 低 但 工作 却 一 
直 无 法 完成 的 时 候 。 

。 ”优化 和 提升 是 两 回 事 。 当 继续 提升 的 成 本 超过 收益 的 时 候 ， 应 当 停止 优化 。 

。 注意 你 的 直觉 ， 但 应 该 只 根据 直觉 来 指导 解决 问题 的 思路 ， 而 不 是 用 于 确定 系统 的 
问题 。 决 策应 当 尽量 基于 数据 而 不 是 感觉 。 


总 体 来 说 ， 我 们 认为 解决 性 能 问题 的 方法 ， 首 先是 要 证 清 问 题 ， 然 后 选择 合适 的 技术 来 
解答 这 些 问 题 。 如 果 你 想 尝试 提升 服务 器 的 总 体 性 能 ， 那 么 一 个 比较 好 的 起 点 是 将 所 有 
查询 记录 到 日 志 中 ， 然 后 利用 pt-query-digest 工具 生成 系统 级 别 的 剖析 报告 。 如 果 是 要 
追查 某 些 性 能 低下 的 查询 ， 记 录 和 剖析 的 方法 也 会 有 帮助 。 可 以 把 精力 放 在 寻找 那些 消 
耗 时 间 最 多 的 、 导 致 了 糟糕 的 用 户 体验 的 ， 或 者 那些 高 度 变化 的 ， 抑 或 有 奇怪 的 响应 时 
间 直 方 图 的 查询 。 当 找到 了 这 些 “ 坏 ”查询 时 ， 要 钻 取 pt-query-digest 报告 中 包含 的 该 
查询 的 详细 信息 ， 或 者 使 用 SHOW PROFILE 及 其 他 诸如 EXPLAIN 这 样 的 工具 。 


如 果 找 不 到 这 些 查 询 性 能 低下 的 原因 ， 那 么 也 可 能 是 遇 到 了 服务 器 级 别 的 性 能 问题 。 这 
时 ， 可 以 较 高 精度 测量 和 绘制 服务 器 状态 计数 右 的 细 市 信息 。 如 有 果 通 过 这 样 的 分 析 重 现 
了 问题 ， 则 应 该 通过 同样 的 数据 制定 一 个 可 靠 的 触发 条 件 ， 来 收集 更 多 的 诊断 数据 。 多 
花费 一 点 时 间 来 确定 可 靠 的 触发 条 件 ， 尽 量 避 人 免 漏 检 或 者 误 报 。 如 果 已 经 可 以 捕获 故障 
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活动 期 间 的 数据 ， 但 还 是 无 法 找到 其 根本 原因 ， 则 要 么 尝试 捕获 更 多 的 数据 ， 要 么 尝试 
寻求 帮助 。 


我 们 无 法 完整 地 测量 工作 系统 ， 但 说 到 底 它 们 都 是 某 种 状态 机 ， 所 以 只 要 足够 细心 ， 软 
辑 清晰 并 且 坚 持 下 去 ， 通 常 来 说 都 能 得 到 想 要 的 结果 。 要 注意 的 是 不 要 把 原因 和 结果 搞 
混 了 ， 而 且 在 确认 问题 之 前 也 不 要 随便 针对 系统 做 变动 。 


理论 上 纯粹 的 自 顶 向 下 的 方法 分 析 和 详尽 的 测量 只 是 理想 的 情况 ， 而 我 们 常常 需要 处 理 
的 是 真实 系统 。 真 实 系 统 是 复杂 且 无 法 充分 测量 的 ， 所 以 我 们 只 能 根据 情况 尽力 而 为 。 
使 用 诸如 pt-query-digest 和 MySQL 企业 监控 器 的 查询 分 析 器 这 样 的 工具 并 不 完美 ， 通 
常 都 不 会 给 出 问题 根源 的 直接 证 据 。 但 真 的 掌握 了 以 后 ， 已 经 足以 完成 大 部 分 的 优化 诊 
断 工作 了 。 


第 4 章 <u 


Schema 与 数据 类 型 优化 


良好 的 逻辑 设计 和 物理 设计 是 高 性 能 的 基石 ， 应 该 根据 系统 将 要 执行 的 查询 语句 来 设计 
schema， 这 往往 需要 权衡 各 种 因素 。 例 如 ， 反 范式 的 设计 可 以 加 快 某 些 类 型 的 查询 ， 但 同 
时 可 能 使 另 一 些 类 型 的 查询 变 慢 。 比 如 添加 计数 表 和 汇总 表 是 一 种 很 好 的 优化 查询 的 方式 ， 
但 这 些 表 的 维护 成 本 可 能 会 很 高 。MySQL 独 有 的 特性 和 实现 细 世 对 性 能 的 影响 也 很 大 。 


本 章 和 聚焦 在 索引 优化 的 下 一 章 ， 覆 盖 了 MySQL 特有 的 schema 设计 方面 的 主题 。 我 
们 假设 读者 已 经 知道 如 何 设计 数据 库 ， 所 以 本 章 既 不 会 介绍 如 何人 门 数 据 库 设计 ， 也 不 
会 讲解 数据 库 设计 方面 的 深入 内 容 。 这 一 章 关注 的 是 MySQL 数据 库 的 设计 ， 主 要 介绍 
的 是 MySQL 数据 库 设 计 与 其 他 关系 型 数据 库 管理 系统 的 区 别 。 如 果 需 要 学 习 数 据 库 设 
计 方 面 的 基础 知识 ， 建 议 阅 读 Clare Churcher 的 Beginning Database Design (Apress 出 
版 社 ) 一 书 。 


本 章 内 容 是 为 接 下 来 的 两 个 章 市 做 铺垫 。 在 这 三 章 中 ， 我 们 将 讨论 逻辑 设计 、 物 理 设计 
和 查询 执行 ， 以 及 它们 之 间 的 相互 作用 。 这 既 需 要 关注 全 局 ， 也 需要 专注 细 市 。 还 需要 
理解 整个 系统 以 便 弄 清楚 各 个 部 分 如 何 相互 影响 。 如 有 果 在 阅读 完 索 引 和 查询 优化 章 市 后 
再 回头 来 看 这 一 章 ， 也 许 会 发 现 本 章 很 有 用 ， 很 多 讨论 的 议题 不 能 孤立 地 考虑 。 


4.1 选择 优化 的 数据 类 型 


MySQL 支持 的 数据 类 型 非常 多 ， 选 择 正确 的 数据 类 型 对 于 获得 高 性 能 至 关 重 要 。 不 管 
存储 哪 种 类 型 的 数据 ， 下 面 几 个 简单 的 原则 都 有 助 于 做 出 更 好 的 选择 。 


更 小 的 通常 更 好 。 
一 般 情况 下 ,应 该 尽量 使 用 可 以 正确 存储 数据 的 最 小 数据 类 型 “'。 更 小 的 数据 类 型 通 


注 1: 例如 只 需要 存 0~200，tinyint unsigned 更 好 。 一 一 译 者 注 
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党 更 快 ， 因 为 它们 占用 更 少 的 磁盘 、 内 存 和 CPU 缓存 ， 并 且 处 理 时 需要 的 CPU JA 
期 也 更 少 。 

但 是 要 确保 没有 低估 需要 存储 的 值 的 范围 ， 因 为 在 schema 中 的 多 个 地 方 增加 数据 类 
型 的 范围 是 一 个 非常 耗 时 和 痛苦 的 操作 。 如 果 无 法 确定 哪个 数据 类 型 是 最 好 的 ， 就 
选择 你 认为 不 会 超过 范围 的 最 小 类 型 。( 如 果 系 统 不 是 很 忙 或 者 存储 的 数据 量 不 多 ， 
或 者 是 在 可 以 轻易 修改 设计 的 早期 阶段 ， 那 之 后 修改 数据 类 型 也 比较 容易 ) 。 


简单 就 好 


简单 数据 类 型 的 操作 通常 需要 更 少 的 CPU 周期 。 例 如 ， 整 型 比 字 符 操作 代价 更 低 ， 
因为 字符 集 和 校对 规则 (排序 规则 ) 使 字符 比较 比 整 型 比较 更 复杂 。 这 里 有 两 个 例子 : 
一 个 是 应 该 使 用 MySQL 内 建 的 类 型 而 不 是 字符 串 来 存储 日 期 和 时 间 ， 另 外 一 个 
是 应 该 用 整 型 存储 IP 地 址 。 稍 后 我 们 将 专门 讨论 这 个 话题 。 


尽量 避免 NULL 


很 多 表 都 包含 可 为 NULL ( 空 值 ) 的 列 ， 即 使 应 用 程序 并 不 需要 保存 NULL 也 是 如 此 ， 
这 是 因为 可 为 NULL 是 列 的 默认 属性 “;。 通 常情 况 下 最 好 指定 列 为 NOT NULL, BRIER 
的 需要 存储 NULL 值 。 

如 果 查 询 中 包含 可 为 NULL 的 列 ， 对 MySQL 来 说 更 难 优化 ， 因 为 可 为 NULL 的 列 使 
得 索引 、 索 引 统计 和 值 比 较 都 更 复杂 。 可 为 NULL 的 列 会 使 用 更 多 的 存储 空间 ， 在 
MySQL 里 也 需要 特殊 处 理 。 当 可 为 NULL 的 列 被 索引 时 ， 每 个 索引 记录 需要 一 个 额 
外 的 字 节 ， 在 MyISAM 里 其 至 还 可 能 导致 固定 大 小 的 索引 (例如 只 有 一 个 整数 列 的 
索引 ) 变 成 可 变 大 小 的 索引 。 

通常 把 可 为 NULL 的 列 改 为 NOT NULL 带 来 的 性 能 提升 比较 小 ， 所 以 〈 调 优 时 ) 没有 
必要 首先 在 现 有 schema 中 查找 并 修改 掉 这 种 情况 ， 除 非 确 定 这 会 导致 问题 。 但 是 ， 
如 果 计 划 在 列 上 建 索 引 ， 就 应 该 尽量 避免 设计 成 可 为 NULL 的 列 。 

当然 也 有 例外 ， 例 如 值得 一 提 的 是 ，InnoDB 使 用 单独 的 位 (bit) 存储 NULL 值 ， 所 
以 对 于 稀疏 数据 # 4 有 很 好 的 空间 效率 。 但 这 一 点 不 适用 于 MyISAM。 


在 为 列 选 择 数 据 类 型 时 ， 第 一 步 需要 确定 合适 的 大 类 型 : 数字 、 字 符 串 、 时 间 等 。 这 通 
常 是 很 简单 的 ， 但 是 我 们 会 提 到 一 些 特殊 的 不 是 那么 直观 的 案例 。 


下 一 步 是 选择 具体 类 型 。 很 多 MySQL 的 数据 类 型 可 以 存储 相同 类 型 的 数据 ， 只 是 存储 
的 长 度 和 范围 不 一 样 、 允 许 的 精度 不 同 ， 或 者 需要 的 物理 空间 (磁盘 和 内 存 空间 ) 不 同 。 


相同 


2: 
1723: 
YE 4: 
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大 类 型 的 不 同 子 类 型 数据 有 时 也 有 一 些 特殊 的 行为 和 属性 。 


例如 ，DATETIME 和 TIMESAMP 列 都 可 以 存储 相同 类 型 的 数据 : 时 间 和 日 期 ， 精 确 到 秒 。 


date, time, datatime——7## iz 
如 果 定 义 表 结构 时 没有 指定 列 为 NOT NULL， 默 认 都 是 允许 为 NULL 的 。 
很 多 值 为 NULL， 只 有 少数 行 的 列 有 非 NULL 值 。 译 者 注 
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然而 TIMESTAMP 只 使 用 DATETIME 一 半 的 存储 空间 ， 并 且 会 根据 时 区 变化 ， 具 有 特殊 的 目 
动 更 新 能 力 。 另 一 方面 ，TIMESTAMP 允许 的 时 间 范 围 要 小 得 多 ， 有 时 候 它 的 特殊 能 力 会 
本 章 只 讨论 基本 的 数据 类 型 。MySQL 为 了 兼容 性 支持 很 多 别名 ， 例 如 INTEGER, BOOL, 
以 及 NUMERIC。 它 们 都 只 是 别名 。 这 些 别名 可 能 令 人 不 解 ， 但 不 会 影响 性 能 。 如 果 建 表 
时 采用 数据 类 型 的 别名 ， 然 后 用 SHOW CREATE TABLE RÆ, SEM MySQL 报告 的 是 基 
本 类 型 ， 而 不 是 别名 。 


4.1.1 整数 类 型 

有 两 种 类 型 的 数字 : 整数 (whole number) 和 实数 (real number) 。 如 果 存 储 整 数 ， 可 
以 使 用 这 几 种 整数 类 型 : TINYINT，SMALLINT，MEDIUMINT，INT，BIGINT。 分 别 使 用 8, 
16, 24, 32, 64 位 存储 空间 。 它 们 可 以 存储 的 值 的 范围 从 -22 ?到 2 -1， 其 中 六 是 
存储 空间 的 位 数 。 


整数 类 型 有 可 选 的 UNSIGNED 属性 , 表示 不 允许 负 值 , 这 大 致 可 以 使 正 数 的 上 限 提高 一 倍 。 
例如 TINYINT. UNSIGNED 可 以 存储 的 范围 是 0 ~ 255， 而 TINYINT 的 存储 范围 是 -128 ~ 
127。 


有 符号 和 无 符号 类 型 使 用 相同 的 存储 空间 ， 并 具有 相同 的 性 能 ， 因 此 可 以 根据 实际 情况 
选择 合适 的 类 型 。 


你 的 选择 决定 MySQL 是 怎么 在 内 存 和 磁盘 中 保存 数据 的 。 然 而 ， 整 数 计算 一 般 使 用 
64 位 的 BIGINT 整数 ， 即 使 在 32 位 环境 也 是 如 此 。 (一 些 聚 合 函 数 是 例外 ， 它们 使 用 
DECIMAL 或 DOUBLE 进行 计算 )。 


MySQL 可 以 为 整数 类 型 指定 宽度 ， 例 如 INT(11)， 对 大 多 数 应 用 这 是 没有 意义 的 : 它 不 
会 限制 值 的 合法 范围 ,只 是 规定 了 MySQL 的 一 些 交 互 工具 〈 例 如 MySQL 命令 行 客户 端 ) 
用 来 显示 字符 的 个 数 。 对 于 存储 和 计算 来 说 ，INT(1) 和 INT(20) 是 相同 的 。 





Pe 不 一 定 使 用 常见 的 MySQL 内 置 引 警 的 方式 。 
R 


4.1.2 实数 类 型 


实数 是 带 有 小 数 部 分 的 数字 。 然 而 ， 它 们 不 只 是 为 了 存储 小 数 部 分 ; 也 可 以 使 用 
DECIMAL 存储 比 BIGINT 还 大 的 整数 。MySQL 既 支 持 精确 类 型 ， 也 支持 不 精确 类 型 。 
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一 些 第 三 方 存储 引擎， 比如 Infobright， 有 时 也 有 自 定义 的 存储 格式 和 压缩 方案 ,并 . 


FLOAT 和 DOUBLE 类 型 支持 使 用 标准 的 浮 点 运算 进行 近似 计算 。 如 果 需 要 知道 浮 点 运算 是 
怎么 计算 的 ， 则 需要 研究 所 使 用 的 平台 的 浮 点 数 的 具体 实现 。 


DECIMAL 类 型 用 于 存储 精确 的 小 数 。 在 MySQL 5.0 和 更 高 版 本 ，DECIMAL 类 型 支持 精确 
计算 。MySQL 4.1 以 及 更 早 版 本 则 使 用 浮 点 运算 来 实现 DECIAML 的 计算 ， 这 样 做 会 因为 
精度 损失 导致 一 些 奇 怪 的 结果 。 在 这 些 版 本 的 MySQL 中 ,DECIMAL 只 是 一 个 “存储 类 型 ”。 


因为 CPU 不 支持 对 DECIMAL 的 直接 计算 ， 所 以 在 MySQL 5.0 以 及 更 高 版 本 中 ，MySQL 
服务 器 自身 实现 了 DECIMAL 的 高 精度 计算 。 相 对 而 言 ，CPU 直接 支持 原生 浮 点 计算 ， 所 
以 浮 点 运算 明显 更 快 。 


浮 点 和 DECIMAL 类 型 都 可 以 指定 精度 。 对 于 DECIMAL 列 ， 可 以 指定 小 数 点 前 后 所 允许 的 
最 大 位 数 。 这 会 影响 列 的 空间 消耗 。MySQL 5.0 和 更 高 版 本 将 数字 打包 保存 到 一 个 二 进 
制 字符 串 中 (每 4 个 字 节 存 9 个 数字 )。 例 如 ，DECIMAL(18,9) 小 数 点 两 边 将 各 存储 9 个 
数字 ， 一 共 使 用 9 个 字 节 : 小 数 点 前 的 数字 用 4 个 字 节 ， 小 数 点 后 的 数字 用 4 个 字 市 ， 
小 数 点 本 身 占 1 SET. 


MySQL 5.0 和 更 高 版 本 中 的 DECIMAL 类 型 允许 最 多 65 个 数字 。 而 早期 的 MySQL 版 本 中 
这 个 限制 是 254 个 数字 ,并 且 保 存 为 未 压缩 的 字符 串 ( 每 个 数字 一 个 字 节 ) 。 然 而 ,这 些 ( 早 
HA) 版 本 实际 上 并 不 能 在 计算 中 使 用 这 么 大 的 数字 ， 因 为 DECIMAL 只 是 一 种 存储 格式 ， 
在 计算 中 DECIMAL 会 转换 为 DOUBLE 类 型 。 


有 多 种 方法 可 以 指定 浮 点 列 所 需要 的 精度 ， 这 会 使 得 MySQL 悄悄 选择 不 同 的 数据 类 型 ， 
或 者 在 存储 时 对 值 进行 取舍 。 这 些 精度 定义 是 非 标准 的 ， 所 以 我 们 建议 只 指定 数据 类 型 ， 
不 指定 精度 。 


浮 点 类 型 在 存储 同样 范围 的 值 时 ， 通 常 比 DECIMAL 使 用 更 少 的 空间 。FLOAT 使 用 4 个 字 
节 存 储 。DOUBLE 占用 8 个 字 节 , 相 比 FLOAT 有 更 高 的 精度 和 更 大 的 范围 。 和 整数 类 型 一 样 ， 
能 选择 的 只 是 存储 类 型 ; MySQL 使 用 DOUBLE 作为 内 部 浮 点 计算 的 类 型 。 


因为 需要 额外 的 空间 和 计算 开销 ， 所 以 应 该 尽量 只 在 对 小 数 进行 精确 计算 时 才 使 用 
DECIMAL 一 一 例如 存储 财务 数据 。 但 在 数据 量 比较 大 的 时 候 ， 可 以 考虑 使 用 BIGINT 代替 
DECIMAL， 将 需要 存储 的 货币 单位 根据 小 数 的 位 数 乘 以 相应 的 倍数 即 可 。 假 设 要 存储 财 
务 数据 精确 到 万 分 之 一 分 , 则 可 以 把 所 有 金额 乘 以 一 百 万 , 然后 将 结果 存储 在 BIGINT 里 ， 
这 样 可 以 同时 避免 浮 点 存储 计算 不 精确 和 DECIMAL 精确 计算 代价 高 的 问题 。 


4.1.3 字符 串 类 型 
MySQL 支持 多 种 字符 串 类 型 ， 每 种 类 型 还 有 很 多 变种 。 这 些 数据 类 型 在 4.1 和 5.0 版 本 


we 
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发 生 了 很 大 的 变化 ， 使 得 情况 更 加 复杂 。 从 MySQL 4.1 开始 ， 每 个 字符 串 列 可 以 定义 自 
己 的 字符 集 和 排序 规则 ， 或 者 说 校对 规则 (collation) (更 多 关于 这 个 主题 的 信息 请 参考 
第 7 章 )。 这 些 东西 会 很 大 程度 上 影响 性 能 。 


VARCHAR 和 CHAR 类 型 


VARCHAR 和 CHAR 是 两 种 最 主要 的 字符 串 类 型 。 不 幸 的 是 ， 很 难 精 确 地 解释 这 些 值 是 怎么 
存储 在 磁盘 和 内 存 中 的 ， 因 为 这 跟 存 储 引擎 的 具体 实现 有 关 。 下 面 的 描述 假设 使 用 的 存 
储 引擎 是 InnoDB 和 /或 者 MyISAM。 如 果 使 用 的 不 是 这 两 种 存储 引擎 ， 请 参考 所 使 用 
的 存储 引擎 的 文档 。 


先 看 看 VARCHAR #0 CHAR 值 通 常 在 磁盘 上 怎么 存储 。 请 注意 ， 存 储 引擎 存储 CHAR 或 者 
VARCHAR 值 的 方式 在 内 存 中 和 在 磁盘 上 可 能 不 一 样 ， 所 以 MySQL 服务 器 从 存储 引擎 读 
出 的 值 可 能 需要 转换 为 男 一 种 存储 格式 。 下 面 是 关于 两 种 类 型 的 一 些 比较 。 


VARCHAR 
VARCHAR 类 型 用 于 存储 可 变 长 字符 串 ， 是 最 常见 的 字符 串 数据 类 型 。 它 比 定 长 类 型 
更 节省 空间 ， 因 为 它 仅 使 用 必要 的 空间 (例如 ， 越 短 的 字符 串 使 用 越 少 的 空间 ) A 
一 种 情况 例外 ， 如 果 MySQL 表 使 用 ROW FORMAT=FIXED 创建 的 话 ， 每 一 行 都 会 使 用 
定 长 存储 ， 这 会 很 浪费 空间 。 
VARCHAR 需要 使 用 1 或 2 个 额外 字 节 记录 字符 串 的 长 度 : 如 果 列 的 最 大 长 度 小 于 或 
等 于 255 字 节 , 则 只 使 用 1 个 字 节 表示 , 否则 使 用 2 个 字 节 。 假 设 采 用 latinl 字符 集 ， 
一 个 VARCHAR(10) 的 列 需 要 11 个 字 节 的 存储 空间 。VARCHAR(1000) 的 列 则 需要 1002 
个 字 节 ， 因 为 需要 2 个 字 节 存储 长 度 信息 。 
VARCHAR 市 省 了 存储 空间 ， 所 以 对 性 能 也 有 帮助 。 但 是 ， 由 于 行 是 变 长 的 ， 在 
UPDATE 时 可 能 使 行 变 得 比 原来 更 长 ， 这 就 导致 需要 做 额外 的 工作 。 如 果 一 个 行 占用 
的 空间 增长 ， 并 且 在 页 内 没有 更 多 的 空间 可 以 存储 ， 在 这 种 情况 下 ， 不 同 的 存储 引 
擎 的 处 理 方式 是 不 一 样 的 。 例 如 ，MyISAM 会 将 行 拆 成 不 同 的 片段 存储 ，InnoDB 
则 需要 分 裂 页 来 使 行 可 以 放 进 页 内 。 其 他 一 些 存储 引擎 也 许 从 不 在 原 数 据 位 置 更 新 
数据 。 
下 面 这 些 情 况 下 使 用 VARCHAR 是 合适 的 : 字符 串 列 的 最 大 长 度 比 平均 长 度 大 很 多 ， 
列 的 更 新 很 少 ， 所 以 碎片 不 是 问题 ; 使 用 了 像 UTF-8 这 样 复杂 的 字符 集 ， 每 个 字符 
都 使 用 不 同 的 字 节 数 进行 存储 。 
在 5.0 或 者 更 高 版 本 ，MySQL 在 存储 和 检索 时 会 保留 末尾 空格 。 但 在 4.1 或 更 老 
的 版 本 ，MySQL 会 剔除 末尾 空格 。 
InnoDB 则 更 灵活 ， 它 可 以 把 过 长 的 VARCHAR 存储 为 BLOB， 我 们 稍 后 讨论 这 个 问题 。 
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CHAR . 

CHAR 类 型 是 定 长 的 : MySQL 总 是 根据 定义 的 字符 串 长 度 分 配 足 够 的 空间 。 当 存储 
CHAR 值 时 ，MySQL 会 删除 所 有 的 末尾 空格 (在 MySQL 4.1 和 更 老 版 本 中 VARCHAR 
也 是 这 样 实现 的 一 一 也 就 是 说 这 些 版 本 中 CHAR 和 VARCHAR 在 逻辑 上 是 一 样 的， 区 
别 只 是 在 存储 格式 上 )。CHAR 值 会 根据 需要 采用 空格 进行 填充 以 方便 比较 。 

CHAR 适 合 存储 很 短 的 字符 串 ， 或 者 所 有 值 都 接近 同一 个 长 度 。 例 如 ，CHAR 非常 适 
合 存 储 密码 的 MDS 值 ， 因 为 这 是 一 个 定 长 的 值 。 对 于 经 常 变更 的 数据 ，CHAR 也 比 
VARCHAR 更 好 ， 因 为 定 长 的 CHAR 类 型 不 容易 产生 碎片 。 对 于 非常 短 的 列 ，CHAR 比 
VARCHAR 在 存储 空间 上 也 更 有 效率 。 例 如 用 CHAR(1) 来 存储 只 有 Y 和 N 的 值 ， 如 果 
采用 单字 节 字 符 集 “ 只 需要 一 个 字 节 , 但 是 VARCHAR(1) 却 需 要 两 个 字 节 ， 因 为 还 有 
一 个 记录 长 度 的 额外 字 节 。 


CHAR 类 型 的 这 些 行为 可 能 有 一 氮 难 以 理解 ， 下 面 通 过 一 个 具体 的 例子 来 说 明 。 首 先 ,我 
们 创建 一 张 只 有 一 个 CHAR(10) 字段 的 表 并 且 往 里 面 插入 一 些 值 ; 
mysql> CREATE TABLE char_test( char_col CHAR(10)); 


mysql> INSERT INTO char_test(char_col) VALUES 
-> (‘stringi'), ('  string2'), (‘string3 '); 


当 检 索 这 些 值 的 时 候 ， 会 发 现 strings 末尾 的 空格 被 截断 了 。 


mysql> SELECT CONCAT("'", char col, "'") FROM char_test; 
+---------------------------- 十 
| CONCAT("'", char_col, "'") | 


+---------------------------- + 
| ‘string1' | 
| ” string2' | 
| 'string3' | 
+---------------------------- + 


+------------------------------- + 
| ‘string1' | 
. | '  string2' | | 
| 'string3 ' | 
+------------------------------- 十 


数据 如 何 存储 取决 于 存储 引擎 ， 并 非 所 有 的 存储 引擎 都 会 按照 相同 的 方式 处 理 定 长 和 
AHF FEAR. Memory 引擎 只 支持 定 长 的 行 ， 即 使 有 变 长 字段 也 会 根据 最 大 长 度 分 


注 $: ”人 记 住 字符 串 长 度 定义 不 是 字 节 数 ， 是 字符 数 。 多 字 节 字符 集会 需要 更 多 的 空间 存储 单个 字符 。 
注 6: String3 尾部 的 空格 还 在 。 一 一 译 者 注 
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配 最 大 空间 "。 不 过 ， 填 充 和 截取 空格 的 行为 在 不 同 存储 引擎 都 是 一 样 的 ， 因 为 这 是 在 
MySQL 服务 器 层 进 行 处 理 的 。 


与 CHAR 和 VARCHAR 类 似 的 类 型 还 有 BINARY 和 VARBINARY， 它 们 存储 的 是 二 进 制 字符 串 。 
二 进 制 字符 串 跟 常 规 字 符 串 非常 相似 ， 但 是 二 进 制 字符 串 存 储 的 是 字 节 码 而 不 是 字符 。 
填充 也 不 一 样 : MySQL 填充 BINARY 采用 的 是 \0 (SEAN) 而 不 是 空格 ， 在 检索 时 也 不 
会 去 掉 填充 值 生 *。 


当 需 要 存储 二 进 制 数据 ， 并 且 和 希望 MySQL 使 用 字 节 码 而 不 是 字符 进行 比较 时 ， 这 些 
类 型 是 非常 有 用 的 。 二 进 制 比 较 的 优势 并 不 仅仅 体现 在 大 小 写 敏感 上 。MySQL 比较 
BINARY 字符 串 时 ， 每 次 按 一 个 字 节 ， 并 且 根 据 该 字 节 的 数值 进行 比较 。 因 此 ， 二 进 制 比 
较 比 字符 比较 简单 很 多 ， 所 以 也 就 更 快 。 


慷慨 是 不 明智 的 


使 用 VARCHAR(5) 和 VARCHAR(200) 存储 'hello' 的 空间 开销 是 一 样 的 。 那 么 使 用 更 
短 的 列 有 什么 优势 吗 ? 


事实 证 明 有 很 大 的 优势 。 更 长 的 列 会 消耗 更 多 的 内 存 ， 因 为 MySQL 通常 会 分 配 固 
定 大 小 的 内 存 块 来 保存 内 部 值 。 尤 其 是 使 用 内 存 临 时 表 进 行 排序 或 操作 时 会 特别 粳 
糕 。 在 利用 磁 瘟 临时 表 进 行 排序 时 也 同样 糟糕。 


所 以 最 好 的 策略 是 只 分 配 真正 需要 的 空间 。 





BLOB 和 TEXT 类 型 


BLOB 和 TEXT 都 是 为 存储 很 大 的 数据 而 设计 的 字符 串 数据 类 型 ， 分 别 采用 二 进 制 和 字符 
方式 存储 。 


实际 上 ， 它 们 分 别 属 于 两 组 不 同 的 数据 类 型 家 族 ; 字符 类 型 是 TINYTEXT，SMALLTEXT， 
TEXT, MEDIUMTEXT, ĽONGTEXT ; 对 应 的 二 进 制 类 型 是 TINYBLOB, SMALLBLOB, BLOB, 
MEDIUMBLOB, LONGBLOB, BLOB 是 SMALLBLOB 的 同义词 ，TEXT 是 SMALLTEXT 的 同义词 。 


与 其 他 类 型 不 同 ，MySQL 把 每 个 BLOB 和 TEXT 值 当 作 一 个 独立 的 对 象 处 理 。 存储 引擎 
在 存储 时 通常 会 做 特殊 处 理 。 当 BLOB 和 TEXT 值 太 大 时 ，InnoDB 会 使 用 专门 的 “外 部 ” 


v7: Percona Server 里 的 Memory 引 学 支持 变 长 的 行 。 
注 8: 如 果 需 要 在 检索 时 保持 值 不 变 ， 则 需要 特别 小 心 BINARY 类 型 , MySQL 会 用 \0 将 其 填充 到 需要 的 
长 度 。 
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存储 区 域 来 进行 存储 ， 此 时 每 个 值 在 行内 需要 1 ~ 4 个 字 市 存储 一 个 指针 ， 然 后 在 外 部 
存储 区 域 存储 实际 的 值 。 


BLOB 和 TEXT 家族 之 间 仅 有 的 不 同 是 BLOB 类 型 存储 的 是 二 进 制 数据 ， 没 有 排序 规则 或 字 
符 集 ， 而 TEXT 类 型 有 字符 集 和 排序 规则 。 


MySQL 对 BLOB 和 TEXT 列 进行 排序 与 其 他 类 型 是 不 同 的 : 它 只 对 每 个 列 的 最 前 max_ 
sort_length 字 节 而 不 是 整个 字符 串 做 排序 。 如 果 只 需要 排序 前 面 一 小 部 分 字符 ， 则 可 
以 减 小 max_sort_Length 的 配置 ， 或 者 使 用 ORDER BY SUSTRING(column, Length), 


MySQL 不 能 将 BLOB 和 TEXT 列 全 部 长 度 的 字符 串 进行 索引 ， 也 不 能 使 用 这 些 索 引 消 除 
排序 。( 关 于 这 个 主题 下 一 章 会 有 更 多 的 信息 。) 


磁盘 临时 表 和 文件 排序 


因为 Memory 引擎 不 支持 BLOB 和 TEXT 类 型 ， 所以， 如果 查询 使 用 了 BLOB 或 TEXT 
列 并 且 需 要 使 用 隐 式 临时 表 ， 将 不 得 不 使 用 MyISAM 磁盘 临时 表 ， 即 使 只 有 几 行 
数据 也 是 如 此 (Percona Server 的 Memory 引擎 支持 BLOB 和 TEXT 类 型 ， 但 直到 本 
书写 作 之 际 ， 同 样 的 场景 下 还 是 需要 使 用 磁盘 临时 表 )。 


这 会 导致 严重 的 性 能 开销 。 即 使 配置 MySQL 将 临时 表 存 储 在 内 存 块 设备 上 (RAM 
Disk) ， 依 然 需要 许多 昂贵 的 系统 调用 。 


最 好 的 解决 方案 是 尽量 避免 使 用 BLOB 和 TEXT 类 型 。 如 果实 在 无 法 避免 ， 有 一 个 技 
巧 是 在 所 有 用 到 BLOB 字段 的 地 方 都 使 用 SUBSTRING(column, Length) 将 列 值 转换 为 
字符 串 (在 ORDER BY 子 负 中 也 适用 ) ， 这 样 就 可 以 使 用 内 存 临 时 表 了 。 但 是 要 确保 
截取 的 子 字 符 串 足够 短 ， 不 会 使 临时 表 的 大 小 超过 max_heap table_size & tmp_ 
table_size， 超 过 以 后 MySQL 会 将 内 存 临 时 表 转 换 为 MyISAM 磁盘 临时 表 。 


最 坏 情 况 下 的 长 度 分 配对 于 排序 的 时 候 也 是 一 样 的 ， 所 以 这 一 招 对 于 内 存 中 创建 大 
临时 表 和 文件 排序 ,以 及 在 磁盘 上 创建 大 临时 表 和 文件 排序 这 两 种 情况 都 很 有 帮助 。 


例如 ， 假 设 有 一 个 1 000 万 行 的 表 ， 占 用 几 个 GB 的 磁盘 空间 。 其 中 有 一 个 utf8 
字符 集 的 VARCHAR(1000) 列 。 每 个 字符 最 多 使 用 3 个 字 节 ， 最 坏 情 况 下 需要 3 000 
字 节 的 空间 。 如 果 在 ORDER BY 中 用 到 这 个 列 ， 并 且 查 询 扫描 整个 表 ， 为 了 排序 就 
需要 超过 30GB 的 临时 表 。 
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如 果 EXPLAIN 执行 计划 的 Extra ¥] &” Using temporary”， 则 说 明 这 个 查询 使 用 


了 隐 式 临时 表 。 





使 用 枚 举 (ENUM) 代替 字符 串 类 型 

有 时 候 可 以 使 用 枚 举 列 代替 常用 的 字符 串 类 型 。 枚 举 列 可 以 把 一 些 不 重复 的 字符 串 存 储 
成 一 个 预定 义 的 集合 。MySQL 在 存储 枚 举 时 非常 紧凑 ， 会 根据 列表 值 的 数量 压缩 到 一 
个 或 者 两 个 字 市 中 。MySQL 在 内 部 会 将 每 个 值 在 列表 中 的 位 置 保存 为 整数 ， 并 且 在 表 
的 frm 文件 中 保存 “数字 - 字符 串 ” 上 映射 关 系 的 “查找 表 ”。 下 面 有 一 个 例子 : 


mysql> CREATE TABLE enum test( 
-> e ENUM('fish', 'apple', 'dog') NOT NULL 


-> ); 
mysql> INSERT INTO enum_test(e) VALUES('fish'), ('dog'), ('apple'); 


这 三 行 数据 实际 存储 为 整数 ， 而 不 是 字符 串 。 可 以 通过 在 数字 上 下 文 环境 检索 看 到 这 个 
双重 属性 : 


QR EARS EA ENUM 枚 举 和 常量 ， 这 种 双重 性 很 容易 导致 混乱 ， 例 如 ENUM( '1'， 
'2','3')。 建 议 尽 量 避 免 这 么 做 。 


另外 一 个 让 人 吃惊 的 地 方 是 ， 枚 举 字段 是 按照 内 部 存储 的 整数 而 不 是 定义 的 字符 串 进 行 
排序 的 : 


一 种 绕 过 这 种 限制 的 方式 是 按照 需要 的 顺序 来 定义 枚 举 列 。 另 外 也 可 以 在 查询 中 使 用 
FIELD() 函数 显 式 地 指定 排序 顺序 ， 但 这 会 导致 MySQL 无 法 利用 索引 消除 排序 。 
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nse aces e FROM enum_test ORDER BY FIELD(e, ‘apple’, ‘dog', 'fish'); 


如 果 在 定义 时 就 是 按照 字母 的 顺序 ， 就 没有 必要 这 么 做 了 。 


枚 举 最 不 好 的 地 方 是 ， 字 符 串 列表 是 固定 的 ， 添 加 或 删除 字符 串 必 须 使 用 ALTER TABLE, 
因此 ， 对 于 一 系列 未 来 可 能 会 改变 的 字符 串 ， 使 用 枚 举 不 是 一 个 好 主意 ， 除 非 能 接受 只 
在 列表 末尾 添加 元 素 ， 这 样 在 MySQL 5.1 中 就 可 以 不 用 重建 整个 表 来 完成 修改 。 


由 于 MySQL 把 每 个 枚 举 值 保 存 为 整数 ， 并 且 必 须 进行 查找 才能 转换 为 字符 串 ， 所 以 枚 
举 列 有 一 些 开 销 。 通 常 枚 举 的 列表 都 比较 小 ， 所 以 开销 还 可 以 控制 ， 但 也 不 能 保证 一 直 
如 此 。 在 特定 情况 下 ， 把 CHAR/VARCHAR 列 与 枚 举 列 进行 关联 可 能 会 比 直接 关联 CHAR/ 
VARCHAR 列 更 慢 。 


为 了 说 明 这 个 情况 ， 我 们 对 一 个 应 用 中 的 一 张 表 进 行 了 基准 和 测试， 看 看 在 MySQL 中 执 
行 上 面 说 的 关联 的 速度 如 何 。 该 表 有 一 个 很 大 的 主键 : 


CREATE TABLE webservicecalls ( 
day date NOT NULL, 
account smallint NOT NULL, 
service varchar(10) NOT NULL, 
method varchar(50) NOT NULL, 
calls int NOT NULL, 
items int NOT NULL, 
time float NOT NULL, 
cost decimal(9,5) NOT NULL, 
updated datetime, 
PRIMARY KEY (day, account, service, method) 
) ENGINE=InnoDB; 


这 个 表 有 11 万 行 数据 ， 只 有 10MB 大 小 ， 所 以 可 以 完全 载 和 内存 。service 列 包含 了 5 
个 不 同 的 值 ， 平 均 长 度 为 4 个 字符 ，method WAST 71 个 值 ， 平 均 长 度 为 20 个 字符 。 


我 们 复制 一 下 这 个 表 ， 但 是 把 service 和 method 字段 换 成 枚 举 类 型 ， 表 结构 如 下 : 


CREATE TABLE webservicecalls enum ( 
.。 omitted ... 
service ENUM(...values omitted...) NOT NULL, 
method ENUM(...values omitted...) NOT NULL, 


[125 > .。。 omitted ... 


) ENGINE=InnoDB; 
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然后 我 们 用 主键 列 关 联 这 两 个 表 ， 下 面 是 所 使 用 的 查询 语句 : 


mysql> SELECT SQL_NO_CACHE COUNT(*) 
-> FROM webservicecal1s 
-> JOIN webservicecalls USING(day, account, service, method); 


我 们 用 VARVHAR 和 ENUM 分 别 测试 了 这 个 语句 ， 结 果 如 表 4-1 所 示 。 
R 4-1， 连接 VARCHAR 和 ENUM 列 的 速度 


测试 o | < QPS 
VARCHAR 关联 VARCHAR 2.6 
VARCHAR 关联 ENUM 1.7 
ENUM 关联 VARCHAR 1.8 
ENUM 关联 ENUM 3.5 


~ 


和 ENUM 列 进行 关联 时 则 慢 很 多 。 在 本 例 中 ， 如 果 不 是 必须 和 VARCHAR 列 进行 关联 ， 那 么 
转换 这 些 列 为 ENUM 就 是 个 好 主意 。 这 是 一 个 通用 的 设计 实践 ， 在 “查找 表 ” 时 采用 整数 
主键 而 避免 采用 基于 字符 串 的 值 进行 关 联 。 | 


然而 ， 转 换 列 为 枚 举 型 还 有 另 一 个 好 处 。 根 据 SHOW TABLE STATUS 命令 输出 结果 中 
Data_Length 列 的 值 ， 把 这 两 列 转换 为 ENUM 可 以 让 表 的 大 小 缩小 13 。 在 某 些 情况 下 ， 
即使 可 能 出 现 ENUM 和 VARCHAR 进行 关联 的 情况 ， 这 也 是 值得 的 ”。 同 样 ， 转 换 后 主键 也 
只 有 原来 的 一 半 大 小 了 。 因 为 这 是 InnoDB 表 ， 如 果 表 上 有 其 他 索引 ， 减 小 主键 大 小 会 
使 非 主键 索引 也 变 得 更 小 。 稍 后 再 解释 这 个 问题 。 


4.1.4 日 期 和 时 间 类 型 
MySQL 可 以 使 用 许多 类 型 来 保存 日 期 和 时 间 值 ， 例 如 YEAR 和 DATE, MySQL 能 存储 的 
最 小 时 间 粒 度 为 秒 (MariaDB 支持 微 秒 级 别 的 时 间 类 型 )。 但 是 MySQL 也 可 以 使 用 微 秒 
级 的 粒度 进行 临时 运算 ， 我 们 会 展示 怎么 绕 开 这 种 存储 限制 。 
大 部 分 时 间 类 型 都 没有 替代 品 ， 因 此 没有 什么 是 最 佳 选择 的 问题 。 唯 一 的 问题 是 保 
存 日 期 和 时 间 的 时 候 需 要 做 什么 。MySQL 提供 两 种 相似 的 日 期 类 型 : DATETIME 和 
TIMESTAMP。 对 于 很 多 应 用 程序 ， 它 们 都 能 工作 ， 但 是 在 某 些 场景 ， 一 个 比 另 一 个 工作 
得 好 。 让 我 们 来 看 一 下 。 
DATETIME | 

这 个 类 型 能 保存 大 范围 的 值 ， 从 1001 年 到 9999 年 ， 精 度 为 秒 。 它 把 日 期 和 时 间 封 


注 9: 这 很 可 能 可 以 节省 /OQO。 一 一 译 者 注 
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RIAH YYYYMMDDHHMMSS 的 整数 中 ， 与 时 区 无 关 。 使 用 8 个 字 节 的 存储 
空间 。 
默认 情况 下 ，MySQL 以 一 种 可 排序 的 、 无 歧义 的 格式 显示 DATETIME 值 ， 例 如 
“2008-01-16 22:37:08”。 这 是 ANSI 标准 定义 的 日 期 和 时 间 表 示 方 法 。 

TIMESTAMP 
就 像 它 的 名 字 一 样 ，TIMETAMP 类 型 保存 了 从 1970 年 1 月 1 日 午夜 (格林尼治 标准 
时 间 ) 以 来 的 秒 数 , 它 和 UNIX BY Ia] BAH le], TIMESTAMP 只 使 用 4 个 字 节 的 存储 空间 ， 
因此 它 的 范围 比 DATETIME 小 得 多 : 只 能 表示 从 1970 年 到 2038 年 。MySQL 提供 了 
FROM_UNIXTIME() 函数 把 Unix 时 间 戳 转换 为 日 期 ， 并 提供 了 UNIX_TIMESTAMP() Ki 
数 把 日 期 转换 为 Unix AY lal ak. 
MySQL 4.1 以 及 更 新 的 版 本 按照 DATETIME 的 方式 格式 化 TIMESTAMP 的 值 ， 但 是 
MySQL 4.0 以 及 更 老 的 版 本 不 会 在 各 个 部 分 之 间 显 示 任 何 标点 符号 。 这 仅仅 是 显示 
格式 上 的 区 别 ，TIMESTAMP 的 存储 格式 在 各 个 版 本 都 是 一 样 的 。 
TIMESTAMP 显示 的 值 也 依赖 于 时 区 。MySQL 服务 器 、 操 作 系 统 ， 以 及 客户 端 连 接 都 
有 时 区 设置 。 
因此 ， 存 储 值 为 0 的 TIMESTAMP 在 美国 东部 时 区 显示 为 “1969-12-31 19:00:00”, 5 
格林 尼 治 时 间 差 5 个 小 时 。 有 必要 强调 一 下 这 个 区 别 : 如 果 在 多 个 时 区 存储 或 访问 
数据 ，TIMESTAMP 和 DATETIME 的 行为 将 很 不 一 样 。 前 者 提供 的 值 与 时 区 有 关系 ， 后 
者 则 保留 文本 表示 的 日 期 和 时 间 。 
TIMESTAMP 也 有 DATETIME 没有 的 特殊 属性 。 默 认 情 况 下 ， 如 果 播 入 时 没有 指定 第 一 
个 TIMESTAMP 列 的 值 ,MySQL 则 设置 这 个 列 的 值 为 当前 时 间 宇 ”在 插入 一 行 记录 时 ， 
MySQL 默认 也 会 更 新 第 一 个 TIMESTAMP 列 的 值 (除非 在 UPDATE 语句 中 明确 指定 了 
值 )。 你 可 以 配置 任何 TIMESTAMP 列 的 插入 和 更 新 行为 。 最 后 ，TIMESTAMP 列 默 认为 
NOT NULL， 这 也 和 其 他 的 数据 类 型 不 一 样 。 


O> 除了 特殊 行为 之 外 , 通常 也 应 该 尽量 使 用 TIMESTAMP， 因 为 它 比 DATETIME 空间 效率 更 高 。 
有 时 候 人 们 会 将 Unix 时 间 截 存储 为 整数 值 ， 但 这 不 会 带 来 任何 收益 。 用 整数 保存 时 间 
截 的 格式 通常 不 方便 处 理 ， 所 以 我 们 不 推荐 这 样 做 。 


如 果 需 要 存储 比 秒 更 小 粒度 的 日 期 和 时 间 值 怎么 办 ? MySQL 目前 没有 提供 合适 的 数据 
类 型 ， 但 是 可 以 使 用 自己 的 存储 格式 : 可 以 使 用 BIGINT 类 型 存储 微 秒 级 别 的 时 间 截 ， 或 
者 使 用 DOUBLE 存储 秒 之 后 的 小 数 部 分 。 这 两 种 方式 都 可 以 ， 或 者 也 可 以 使 用 MariaDB 
替代 MySQL. 


注 10 : TIMESTAMP 的 行为 规则 比较 复杂 ， 并 且 在 不 同 的 MySQL 版 本 里 会 变动 ， 所 以 你 应 该 验证 数据 库 的 
行为 是 你 需要 的 。 一 个 好 的 方式 是 修改 完 TIMESTAMP 列 后 用 SHOW CREATE TABLE 命令 检查 输出 。 
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4.1.5 位 数据 类 型 
MySQL 有 少数 几 种 存储 类 型 使 用 紧凑 的 位 存储 数据 。 所 有 这 些 位 类 型 ， 不 管 底层 存储 
格式 和 处 理 方 式 如 何 ， 从 技术 上 来 说 都 是 字符 串 类 型 。 


BIT 
在 MySQL 5.0 之 前 ，BIT 是 TINYINT 的 同义词 。 但 是 在 MySQL 5.0 以 及 更 新 版 本 ， 
这 是 一 个 特性 完全 不 同 的 数据 类 型 。 下 面 我 们 将 讨论 BIT 类 型 新 的 行为 特性 。 
可 以 使 用 BIT 列 在 一 列 中 存储 一 个 或 多 个 true/false 值 。BIT(1) 定义 一 个 包含 单个 位 
的 字段 ，BIT(2) 存储 2 个 位 ， 依 此 类 推 。BIT 列 的 最 大 长 度 是 64 个 位 。 
BIT 的 行为 因 存储 引擎 而 异 。MyISAM 会 打包 存储 所 有 的 BIT 列 ， 所 以 17 个 单独 的 
BIT 列 只 需要 17 个 位 存储 (假设 没有 可 为 NULL 的 列 ) ， 这 样 MyISAM 只 使 用 3 个 
字 节 就 能 存储 这 17 个 BIT 列 。 其 他 存储 引擎 例如 Memory 和 InnoDB, WA BIT 
列 使 用 一 个 足够 存储 的 最 小 整数 类 型 来 存放 ， 所 以 不 能 节省 存储 空间 。 
MySQL 把 BIT 当 作 字符 串 类 型 ， 而 不 是 数字 类 型 。 当 检索 BIT(1) HBR, ARE 
一 个 包含 二 进 制 0 或 1 值 的 字符 串 ， 而 不 是 ASCII 码 的 “0” 或 “1 二。 然而 ， 在 数 
字 上 下 文 的 场景 中 检索 时 ， 结 果 将 是 位 字符 串 转 换 成 的 数字 。 如 果 需 要 和 另外 的 值 
比较 结果 ， 一 定 要 记得 这 一 点 。 例 如 ， 如 果 存 储 一 个 值 b' 00111001' (二 进 制 值 等 
于 57) 到 BIT(8) 的 列 并 且 检索 它 ， 得 到 的 内 容 是 字符 码 为 57 的 字符 串 。 也 就 是 说 
得 到 ASCI 码 为 57 的 字符 “9”。 但 是 在 数字 上 下 文 场景 中 ， 得 到 的 是 数字 57 : 

mysql> CREATE TABLE bittest(a bit(8)); 


mysql> INSERT INTO bittest VALUES(b'00111001') ; 
mysql> SELECT a, a + 0 FROM bittest; 


这 是 相当 令 人 费解 的 ， 所 以 我 们 认为 应 该 谨慎 使 用 BIT 类 型 。 对 于 大 部 分 应 用 ， 最 
好 避免 使 用 这 种 类 型 。 

如 果 想 在 一 个 bit 的 存储 空间 中 存储 一 个 true/false 值 ， 另 一 个 方法 是 创建 一 个 可 以 
为 空 的 CHAR(0) 列 。 该 列 可 以 保存 空 值 (NULL) 或 者 长 度 为 零 的 字符 串 (SLAB), 

SET 

如 果 需 要 保存 很 多 true/false 值 ， 可 以 考虑 合并 这 些 列 到 一 个 SET 数据 类 型 ， 它 在 
MySQL 内 部 是 以 一 系列 打包 的 位 的 集合 来 表示 的 。 这 样 就 有 效 地 利用 了 存储 空间 ， 
并 且 MySQL 有 像 FIND IN SET() 和 FIELD() 这 样 的 函数 ,方便 地 在 查询 中 使 用 。 
它 的 主要 缺点 是 改变 列 的 定义 的 代价 较 高 : 需要 ALTER TABLE， 这 对 大 表 来 说 是 非 
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RARE (但 是 本 章 的 后 面 给 出 了 解决 办 法 )。 一 般 来 说 ， 也 无 法 在 SET 列 上 通 
过 索引 查找 。 

在 整数 列 上 进行 按 位 操作 
一 种 替代 SET 的 方式 是 使 用 一 个 整数 包装 一 系列 的 位 。 例 如 ， 可 以 把 8 个 位 包装 到 
一 个 TINYINT 中 ， 并 且 按 位 操作 来 使 用 。 可 以 在 应 用 中 为 每 个 位 定义 名 称 常量 来 简 
化 这 个 工作 。 
比 起 SET, 这 种 办 法 主要 的 好 处 在 于 可 以 不 使 用 ALTER TABLE 改变 字段 代表 的 “ 枚 举 ” 
值 ,缺点 是 查询 语句 更 难 写 , 并 且 更 难 理解 ( 当 第 5 个 bit 位 被 设置 时 是 什么 意思 ? )。 
一 些 人 非常 适应 这 种 方式 ， 也 有 一 些 人 不 适应 ， 所 以 是 否 采用 这 种 技术 取决 于 个 人 
的 偏好 。 


一 个 包装 位 的 应 用 的 例子 是 保存 权限 的 访问 控制 列表 (ACL)。 每 个 位 或 者 SET 元 素 代 
表 一 个 值 ， 例 如 CAN_READ、CAN_WRITE， 或 者 CAN_DELETE。 如 果 使 用 SET 列 ， 可 以 让 
MySQL 在 列 定 义 里 存储 位 到 值 的 映射 关系 ， 如 果 使 用 整数 列 ， 则 可 以 在 应 用 代码 里 存 
储 这 个 对 应 关系 。 这 是 使 用 SET 列 时 的 查询 : 


mysql> CREATE TABLE acl ( 
-> perms SET('CAN READ', 'CAN WRITE', 'CAN DELETE’) NOT NULL 
-> ); 
mysql> INSERT INTO acl(perms) VALUES ('CAN READ,CAN DELETE'); 
mysql> SELECT perms das acl WHERE FIND IN | SET(' AN | READ' » perms); 


如 果 使 用 整数 来 存储 ， 则 可 以 参考 下 面 的 例子 : 


mysql> SET @CAN READ := << 0, 
->  @CAN WRITE := 1 << 1, 
-> @CAN DELETE := 1 << 2; 
mysql> CREATE TABLE acl ( 
-> perms TINYINT UNSIGNED NOT NULL DEFAULT 0 


> ); 
isai INSERT INTO acl(perms) VALUES(@CAN_READ + @CAN_DELETE); 
mysql> ang perms FROM acl WHERE perms & @CAN_READ; 


这 里 我 们 使 用 MySQL 变量 来 定义 值 ， 但 是 也 可 以 在 代码 里 使 用 常量 来 代替 。 
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4.1.6 选择 标识 符 (identifier) 

为 标识 列 (identifier column) 选择 合适 的 数据 类 型 非常 重要 。 一 般 来 说 更 有 可 能 用 标识 
列 与 其 他 值 进行 比较 〈 例 如 ， 在 关联 操作 中 ) ， 或 者 通过 标识 列 寻 找 其 他 列 。 标 识 列 也 
可 能 在 另外 的 表 中 作为 外 键 使 用 ， 所 以 为 标识 列 选 择 数据 类 型 时 ， 应 该 选择 跟 关联 表 中 
的 对 应 列 一 样 的 类 型 〈 正 如 我 们 在 本 章 早 些 时 候 所 论述 的 一 样 ， 在 相关 的 表 中 使 用 相同 
的 数据 类 型 是 个 好 主意 ， 因 为 这 些 列 很 可 能 在 关联 中 使 用 )。 


当选 择 标识 列 的 类 型 时 ， 不 仅仅 需要 考虑 存储 类 型 ， 还 需要 考虑 MySQL 对 这 种 类 型 怎 
么 执行 计算 和 比较 。 例 如 ，MySQL 在 内 部 使 用 整数 存储 ENUM 和 SET 类型， 然后 在 做 比 
较 操 作 时 转换 为 字符 串 。 


一 旦 选 定 了 一 种 类 型 ， 要 确保 在 所 有 关联 表 中 都 使 用 同样 的 类 型 。 类 型 之 间 需 要 精确 匹 
Hc, 包括 像 UNSIGNED 这 样 的 属性 "。 混 用 不 同 数据 类 型 可 能 导致 性 能 问题 , 即使 没有 性 
能 影响 ， 在 比较 操作 时 隐 式 类 型 转换 也 可 能 导致 很 难 发 现 的 错误 。 这 种 错误 可 能 会 很 入 
以 后 才 突 然 出 现 ， 那 时 候 可 能 都 已 经 忘记 是 在 比较 不 同 的 数据 类 型 。 


在 可 以 满足 值 的 范围 的 需求 ， 并 且 预 留 未 来 增长 空间 的 前 提 下 ， 应 该 选择 最 小 的 数据 类 
型 。 例 如 有 一 个 state id 列 存 储 美 国 各 州 的 名 字 二 ， 就 不 需要 几 千 或 几 百 万 个 值 , 所 以 
不 需要 使 用 INT。TINYINT 足够 存储 ， 而 且 比 INT 少 了 3 个 字 节 。 如 果 用 这 个 值 作为 其 他 
表 的 外 键 ，3 个 字 节 可 能 导致 很 大 的 性 能 差异 。 下 面 是 一 些小 技巧 。 


整数 类 型 
整数 通常 是 标识 列 最 好 的 选择 ， 因 为 它们 很 快 并 且 可 以 使 用 AUTO_INCREMENT。 
ENUM 和 SET 类 型 


对 于 标识 列 来 说 ，EMUM 和 SET 类 型 通 前 是 一 个 精 糕 的 选择 ， 尽 管 对 某 些 只 包含 固定 
状态 或 者 类 型 的 静态 “定义 表 ”来 说 可 能 是 没有 问题 的 。ENUM 和 SET 列 适合 存储 固 


定 信 息 ， 例 如 有 序 的 状态 、 产 品类 型 、 人 的 性 别 。 
举 个 例子 ， 如 果 使 用 枚 举 字段 来 定义 产品 类 型 ， 也 许 会 设计 一 张 以 这 个 枚 举 字 段 为 
主键 的 查找 表 (可 以 在 查找 表 中 增加 一 些 列 来 保存 描述 性 质 的 文本 ， 这 样 就 能 够 生 
成 一 个 术语 表 ， 或 者 为 网 站 的 下 拉 菜 单 提供 有 意义 的 标签 )。 这 时 ， 使 用 枚 举 类 型 作 
为 标识 列 是 可 行 的 ， 但 是 大 部 分 情况 下 都 要 避免 这 么 做 。 

FA BRB 
如 果 可 能 ， 应 该 避免 使 用 字符 串 类 型 作为 标识 列 ， 因 为 它们 很 消耗 空间 ， 并 且 通 


注 11 : 如 果 使 用 的 是 InnoDB 存储 引擎 ， 将 不 能 在 数据 类 型 不 是 完全 匹配 的 情况 下 创建 外 键 ， 否 则 会 有 

报错 信息 : “ERROR 1005 (HY000): Can't create table”， 这 个 信息 可 能 让 人 迷 总 不 解 ， 这 个 问题 在 
MySQL 邮件 组 也 经 党 有 人 抱 妨 (但 奇怪 的 是 ， 在 不 同 长 度 的 VARCHAR 列 上 创建 外 键 又 是 可 以 的 )。 
注 12 : 这 是 关联 到 另 一 张 存储 名 字 的 表 的 ID, —#4 iz 
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常 比 数字 类 型 慢 。 尤 其 是 在 MyISAM 表 里 使 用 字符 串 作 为 标识 列 时 要 特别 小 心 。 

MyISAM 默认 对 字符 串 使 用 压缩 索引 ， 这 会 导致 查询 慢 得 多 。 在 我 们 的 测试 中 ， 我 

们 注意 到 最 多 有 6 倍 的 性 能 下 降 。 

对 于 完全 “随机 ”的 字符 串 也 需要 多 加 注意 ， 例 如 MD5()、SHA1() 或 者 UUID () 产生 

的 字符 串 。 这 些 函 数 生成 的 新 值 会 任意 分 布 在 很 大 的 空间 内 ， 这 会 导致 INSERT 以 及 

一 些 SELECT 语句 变 得 很 慢 *、 : 

。 因为 插入 值 会 随机 地 写 到 索引 的 不 同位 置 ， 所 以 使 得 INSERT 语句 更 慢 。 这 会 导 
致 页 分 裂 、 磁 盘 随机 访问 ， 以 及 对 于 聚 徐 存储 引擎 产生 育 徐 索引 碎片 。 关 于 这 
一 点 第 5 章 有 更 多 的 讨论 。 

。 SELECT 语句 会 变 得 更 慢 ， 因 为 逻辑 上 相 邻 的 行 会 分 布 在 磁盘 和 内 存 的 不 同 地 方 。 

。 随机 值 导 致 缓存 对 所 有 类 型 的 查询 语句 效果 都 很 差 ， 因 为 会 使 得 缓存 赖 以 工作 
的 访问 局 部 性 原理 失效 。 如 果 整 个 数据 集 都 一 样 的 “ 热 "， 那 么 缓存 任何 一 部 分 
特定 数据 到 内 存 都 没有 好 处 ; 如 果 工 作 集 比 内 存 大 ， 缓 存 将 会 有 很 多 刷新 和 不 
命中 。 


如 果 存 储 UUID 值 ， 则 应 该 移 除 “-” 符 号 ; 或 者 更 好 的 做 法 是 ， 用 UNHEX ( ) 函数 转换 
UUID ÉA 16 字 节 的 数字 ， 并 且 存 储 在 一 个 BINARY(16) 列 中 。 检 索 时 可 以 通过 HEX ( ) 
函数 来 格式 化 为 十 六 进 制 格式 。 


[31> UUID() 生成 的 值 与 加 密 散 列 函数 例如 SHA1( ) 生成 的 值 有 不 同 的 特征 : UUID 值 虽 然 分 
布 也 不 均匀 ， 但 还 是 有 一 定 顺 序 的 。 尽 管 如 此 ， 但 还 是 不 如 递增 的 整数 好 用 。 


当心 自动 生成 的 schema 


我 们 已 经 介绍 了 大 部 分 重要 数据 类 型 的 考虑 (有 些 会 严重 影响 性 能 ， 有 些 则 影响 较 
小 )， 但 是 我 们 还 没有 提 到 自动 生成 的 schema 设计 有 多 么 糟糕 。 


写 得 很 烂 的 schema 迁移 程序 ， 或 者 自动 生成 schema 的 程序 ， 帮 会 导致 严重 的 性 


能 问题 。 有 些 程序 存储 任何 东西 都 会 使 用 很 大 的 VARCHAR 列 ， 或 者 对 需要 在 关联 时 
比较 的 列 使 用 不 同 的 数据 类 型 。 如 果 Schema 是 自动 生成 的 ， 一 定 要 反复 检查 确认 
没有 问题 。 


对 象 关系 映射 (ORM) 系统 (以 及 使 用 它们 的 “框架 `) 是 另 一 种 第 见 的 性 能 重 梦 。 
一 些 ORM 系统 会 存储 任意 类 型 的 数据 到 任意 类 型 的 后 广 数 据 存 储 中 ， 这 通常 意味 





注 13 : 另 一 方面 ， 对 一 些 有 很 多 写 的 特别 大 的 表 ， 这 种 伪 随 机 值 实际 上 可 以 帮助 消除 热点 。 
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着 其 没有 设计 使 用 更 优 的 数据 类 型 来 存储 。 有 时 会 为 每 个 对 象 的 每 个 属性 使 用 单独 
的 行 ， 其 至 使 用 基于 时 间 稚 的 版 本 控制 ， 导 致 单个 属性 会 有 多 个 版 本 存在 。 


这 种 设计 对 开发 者 很 有 吸引 力 ， 因 为 这 使 得 他 们 可 以 用 面向 对 象 的 方式 工作 ， 不 需 


要 考虑 数据 是 怎么 存储 的 。 然 而 ,“ 对 开发 者 隐藏 复杂 性 ”的 应 用 通常 不 能 很 好 地 
扩展 。 我 们 建议 在 用 性 能 交换 开发 人 员 的 效率 之 前 仔细 考虑 ， 并 且 总 是 在 真实 大 小 
的 数据 集 上 做 测试 ， 这 样 就 不 会 太 晚 才 发 现 性 能 问题 。 





4.1.7 特殊 类 型 数据 
某 些 类 型 的 数据 并 不 直接 与 内 置 类 型 一 致 。 低 于 秒 级 精度 的 时 间 惟 就 是 一 个 例子 ; 本 章 
的 前 面部 分 也 演示 过 存储 此 类 数据 的 一 些 选 项 。 


另 一 个 例子 是 一 个 IPv4 地 址 。 人 们 经 常 使 用 VARCHAR(15) 列 来 存储 IP 地 址 。 然 而 ， 它 
们 实际 上 是 32 位 无 符号 整数 ， 不 是 字符 串 。 用 小 数 点 将 地 址 分 成 四 段 的 表示 方法 只 是 
为 了 让 人 们 阅读 容易 。 所 以 应 该 用 无 符号 整数 存储 IP 地 址 。MySQL 提供 INET _ATON() 
和 INET_NTOA() 函数 在 这 两 种 表示 方法 之 间 转 换 。 


4.2 MySQL schema 设计 中 的 陷阱 


虽然 有 一 些 普遍 的 好 或 坏 的 设计 原则 ， 但 也 有 一 些 问 题 是 由 MySQL 的 实现 机 制导 致 的 ， 
这 意味 着 有 可 能 犯 一 些 只 在 MySQL 下 发 生 的 特定 错误 。 本 节 我 们 讨论 设计 MySQL 的 
schema 的 问题 。 这 也 许 会 帮助 你 避免 这 些 错 误 ， 并 且 选 择 在 MySQL 特定 实现 下 工作 得 
更 好 的 替代 方案 。 


太 多 的 列 

MySQL 的 存储 引擎 API 工作 时 需要 在 服务 器 层 和 存储 引擎 层 之 间 通 过 行 缓 冲 格式 
拷贝 数据 ， 然 后 在 服务 器 层 将 缓冲 内 容 解 码 成 各 个 列 。 从 行 缓冲 中 将 编码 过 的 列 转 
换 成 行 数据 结构 的 操作 代价 是 非常 高 的 。MyISAM 的 定 长 行 结构 实际 上 与 服务 器 层 
Pe te A en dn ened eee 
结构 则 总 是 需要 转换 。 转 换 的 代价 依赖 于 列 的 数量 。 mai 
aaa 发 现 客户 使 用 了 非常 宽 的 表 〈 数 千 个 字段 )， 只 有 一 小 部 分 列 会 
实际 用 到 ， 这 时 转换 的 代价 就 非常 高 。 eins 必须 意识 到 服务 

器 的 性 能 运行 特征 会 有 一 些 不 同 。 
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太 多 的 关联 


所 谓 的 “实体 - 属性 - 值 ”(EAV) 设计 模式 是 一 个 常见 的 糟糕 设计 模式 ， 尤 其 是 在 
MySQL 下 不 能 靠 谱 地 工作 。MySQL 限制 了 每 个 关联 操作 最 多 只 能 有 61 张 表 ,但 
是 EAV 数据 库 需 要 许多 自 关联 。 我 们 见 过 不 少 EAV 数据 库 最 后 超过 了 这 个 限制 。 
事实 上 在 许多 关联 少 于 61 张 表 的 情况 下 ， 解 析 和 优化 查询 的 代价 也 会 成 为 MySQL 
的 问题 。 一 个 粗略 的 经 验 法 则 ， 如 果 希 望 查询 执行 得 快速 且 并 发 性 好 ， 单 个 查询 最 
好 在 12 个 表 以 内 做 关联 。 


全 能 的 枚 举 


注意 防止 过 度 使 用 枚 举 (ENUM) 。 下 面 是 我 们 见 过 的 一 个 例子 : 


CREATE TABLE ... ( 
country enum('','0','1','2',...,'31') 
这 种 模式 的 schema 设计 非常 凌乱 。 这 么 使 用 枚 举 值 类 型 也 许 在 任何 支持 枚 举 类 型 的 
数据 库 都 是 一 个 有 问题 的 设计 方案 ， 这 里 应 该 用 整数 作为 外 键 关 联 到 字典 表 或 者 查 
找 表 来 查找 具体 值 。 但 是 在 MySQL 中 ， 当 需要 在 枚 举 列表 中 增加 一 个 新 的 国家 时 
就 要 做 一 次 ALTER TABLE 操作 。 在 MySQL 5.0 以 及 更 早 的 版 本 中 ALTER TABLE 是 一 
种 阻塞 操作 ; 即使 在 5.1 和 更 新 版 本 中 ， 如 果 不 是 在 列表 的 末尾 增加 值 也 会 一 样 需 
要 ALTER TABLE 《我 们 将 展示 一 些 骇 客 式 的 方法 来 避免 阻塞 操作 ， 但 是 这 只 是 骇 客 
的 玩法 ， 别 轻易 用 在 生产 环境 中 )。 


变相 的 枚 举 


[ 133 > 


枚 举 (ENUM) 列 允 许 在 列 中 存储 一 组 定义 值 中 的 单个 值 ， 集 合 (SET) 列 则 允许 在 列 
中 存储 一 组 定义 值 中 的 一 个 或 多 个 值 。 有 时 候 这 可 能 比较 容易 导致 混乱 。 这 是 一 个 
例子 : 


CREATE TABLE ...( 
is default set('Y','N') NOT NULL default 'N' 


WRX BRAS PT BL, ABZ SSAC HEIR) EERE RA. 


非 此 发 明 (Not Invent Here) # NULL 
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我 们 之 前 写 了 避免 使 用 NULL 的 好 处 ， 并 且 建 议 尽 可 能 地 考虑 替代 方案 。 即 使 需要 存 
储 一 个 事实 上 的 “ 空 值 ”到 表 中 时 ， 也 不 一 定 非得 使 用 NULL。 也 许可 以 使 用 0、 某 
个 特殊 值 ， 或 者 空 字符 串 作为 代替 。 

但 是 遵循 这 个 原则 也 不 要 走 极端 。 当 确实 需要 表示 未 知 值 时 也 不 要 害怕 使 用 NULL, 
在 一 些 场景 中 ， 使 用 NULL 可 能 会 比 某 个 神奇 常数 更 好 。 从 特定 类 型 的 值 域 中 选择 一 
个 不 可 能 的 值 ， 例 如 用 -1 代表 一 个 未 知 的 整数 ， 可 能 导致 代码 复杂 很 多 ， 并 容易 引 
入 bug， 还 可 能 会 让 事情 变 得 一 团 糟 。 处 理 NULL 确实 不 容易 ， 但 有 时 候 会 比 它 的 替 
REREH. 
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下 面 是 一 个 我 们 经 常 看 到 的 例子 : 


CREATE TABLE ... ( 
dt DATETIME NOT NULL DEFAULT ‘0000-00-00 00:00:00' 


伪造 的 全 0 值 可 能 导致 很 多 问题 (可 以 配置 MySQL 的 SQL MODE 来 禁止 不 可 能 的 日 期 ， 
对 于 新 应 用 这 是 个 非常 好 的 实践 经 验 ， 它 不 会 让 创建 的 数据 库 里 充满 不 可 能 的 值 )。 
值得 一 提 的 是 ，MySQL 会 在 索引 中 存储 NULL{A, if Oracle 则 不 会 。 


5 Jt 
对 于 任何 给 定 的 数据 通常 都 有 很 多 种 表示 方法 ， 从 完全 的 范式 化 到 完全 的 反 范 式 化 ， 以 


及 两 者 的 折 中 。 在 范式 化 的 数据 库 中 ， 每 个 事实 数据 会 出 现 并 且 只 出 现 一 次 。 相 反 ， 在 


反 范 式 化 的 数据 库 中 ， 信 息 是 元 余 的， 可 能 会 存储 在 多 个 地 方 。 


如 有 果 不 熟 悉 范 式 ， 则 应 该 先 学 习 一 下 。 有 很 多 这 方面 的 不 错 的 书 和 在 线 资 源 ; 在 这 里 ， 
我 们 只 是 给 出 阅读 本 章 所 需要 的 这 方面 的 简单 介绍 。 下 面 以 经 典 的 “和 雇员， 部门， 部 门 
领导 ”的 例子 开始 : 


EMPLOYEE DEPARTMENT HEAD 
Jones Accounting Jones 
Smith Engineering Smith 
Brown Accounting Jones 
Green Engineering Smith 


ee tay arnt ON Pa r: ~ 


这 个 schema 的 问题 是 修改 数据 时 可 能 发 生 不 一 致 。 假 如 Say Brown 接任 Accounting 部 
门 的 领导 ， 需 要 修改 多 行 数据 来 反映 这 个 变化 ， 这 是 很 痛苦 的 事 并 且 容 易 引 入 错误 。 如 
果 “Jones” 这 一 行 显示 部 门 的 领导 跟 “Brown” 这 一 行 的 不 一 样 ， 就 没有 办 法 知道 哪个 
是 对 的 。 这 就 像 是 有 句 老 话说 的 : 一 个 人 有 两 块 手表 就 永远 不 知道 时 间 "。 此 外 ， 这 个 
设计 在 没有 雇员 信息 的 情况 下 就 无 法 表示 一 个 部 门 一 一 如 果 我 们 删除 了 所 有 Accounting 
部 门 的 雇员 ， 我 们 就 失去 了 关于 这 个 部 门 本 身 的 所 有 记录 。 要 避免 这 个 问题 ， 我 们 需要 
对 这 个 表 进 行 范式 化 ， 方 式 是 拆 分 雇员 和 部 门 项 。 拆 分 以 后 可 以 用 下 面 两 张 表 分 别 来 存 
储 雇员 表 : 


EMPLOYEE NAME DEPARTMENT 
Jones Accounting 
Smith Engineering 
Brown Accounting 
Green Engineering 


er 
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和 部 门 表 : 


DEPARTMENT HEAD 


Accounting Jones 
Engineering Smith 


~ 


这 样 设计 的 两 张 表 符 合 第 二 范式 ， 在 很 多 情况 下 做 到 这 一 步 已 经 足够 好 了 。 然 而 ， 第 二 
范式 只 是 许多 可 能 的 范式 中 的 一 种 。 


we 这 个 例子 中 我 们 使 用 姓 (Last Name) 作为 主键 ， 因 为 这 是 数据 的 “自然 标识 "。 从 
(Ba; SIG, LEAMA MiZAN., ARARE REE t, MAA RRS 
符 串 作为 主键 是 很 糟糕 的 主意 。 


4.3.1 seta a Mik 
当 为 性 能 问题 而 寻求 帮助 时 ， 经 常会 被 建议 对 schema 进行 范式 化 设计 ， 尤 其 是 写 密集 
的 场景 。 这 通常 是 个 好 建议 。 因 为 下 面 这 些 原因 ， 范 式 化 通常 能 够 带 来 好 处 : 


。 范式 化 的 更 新 操作 通常 比 反 范 式 化 要 快 。 

。 当 数 据 较 好 地 范式 化 时 ,就 只 有 很 少 或 者 没有 重复 数据 , 所 以 只 需要 修改 更 少 的 数据 。 

。 范式 化 的 表 通 常 更 小 ， 可 以 更 好 地 放 在 内 存 里 ， 所 以 执行 操作 会 更 快 。 

© 很 少 有 多 余 的 数据 意味 着 检索 列表 数据 时 更 少 需要 DISTINCT 或 者 GROUP BY 语句 。 
还 是 前 面 的 例子 : 在 非 范式 化 的 结构 中 必须 使 用 DISTINCT 或 者 GROUP BY 才能 获得 
一 份 唯 一 的 部 门 列表 ， 但 是 如 果 部 门 (DEPARTMENT) 是 一 张 单独 的 表 ， 则 只 需要 简 
单 的 查询 这 张 表 就 行 了 。 

范式 化 设计 的 schema 的 缺点 是 通常 需要 关联 。 稍 微 复杂 一 些 的 查询 语句 在 符合 范式 的 

schema 上 都 可 能 需要 至 少 一 次 关联 ， 也 许 更 多 。 这 不 但 代价 昂贵 ， 也 可 能 使 一 些 索 引 策 

略 无 效 。 例 如 ， 范 式 化 可 能 将 列 存 放 在 不 同 的 表 中 ， 而 这 些 列 如 果 在 一 个 表 中 本 可 以 属 

于 同一 个 索引 。 


4.3.2 反 范式 的 优点 和 缺点 
反 范式 化 的 schema 因为 所 有 数据 都 在 一 张 表 中 ， 可 以 很 好 地 和 避免 关联 。 


如 果 不 需 要 关联 表 ， 则 对 大 部 分 查询 最 差 的 情况 一 一 即使 表 没 有 使 用 索引 
描 。 当 数据 比 内 存 大 时 这 可 能 比 关联 要 快 得 多 ， 因 为 这 样 避免 了 随机 OF", 





是 全 表 扫 


注 14 : 爹 表 扫描 基本 上 是 顺序 UO， 但 也 不 是 100% 的 ， 跟 引擎 的 实现 有 关 。 一 - 译 者 注 
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单独 的 表 也 能 使 用 更 有 效 的 索引 策略 。 假 设 有 一 个 网 站 ， 人 允许 用 户 发 送 消 息 ， 并 且 一 些 
用 户 是 付费 用 户 。 现 在 想 查 看 付费 用 户 最 近 的 10 条 信息 。 如 果 是 范式 化 的 结构 并 且 索 
引 了 发 送 日 期 字段 published， 这 个 查询 也 许 看 起 来 像 这 样 : 
mysql> SELECT message text, user name 
-> FROM message 
-> INNER JOIN user ON message.user_id=user.id 


-> WHERE user.account_type='premiumv ' 
-> ORDER BY message.published DESC LIMIT 10; 


要 更 有 效 地 执行 这 个 查询 ，MySQL 需要 扫描 message KÉJ published 字段 的 索引 。 对 


于 每 一 行 找到 的 数据 ， 将 需要 到 user 表 里 检 查 这 个 用 户 是 不 是 付费 用 户 。 如 果 只 有 一 小 
部 分 用 户 是 付费 账户 ， 那 么 这 是 效率 低下 的 做 法 。 


另 一 种 可 能 的 执行 计划 是 从 user 表 开始 ， 选 择 所 有 的 付费 用 户 ， 获 得 他 们 所 有 的 信息 ， 
并 且 排 序 。 但 这 可 能 更 加 精 糕 。 


主要 问题 是 关联 ， 使 得 需要 在 一 个 索引 中 又 排序 又 过 滤 。 如 果 采 用 反 范 式 化 组 织 数据 ， 
将 两 张 表 的 字段 合并 一 下 ， 并 且 增 加 一 个 索引 (account type， pubLished) ， 就 可 以 不 
通过 关联 写 出 这 个 查询 。 这 将 非常 高 效 : 
mysql> SELECT message text,user name 
-> FROM user messages 
-> WHERE account_type=' premium’ 


-> ORDER BY published DESC 
-> LIMIT 10; 


4.3.3 RRSE eM see 
范式 化 和 反 范 式 化 的 schema 各 有 优 劣 ， 怎 么 选择 最 佳 的 设计 ? 


事实 是 ， 完 全 的 范式 化 和 完全 的 反 范 式 化 schema 都 是 实验 室 里 才 有 的 东西 ; 在 真实 
世界 中 很 少 会 这 么 极端 地 使 用 。 在 实际 应 用 中 经 常 需要 混用 ， 可 能 使 用 部 分 范式 化 的 
schema, FKR, AREH. 


Bx fs LARENA EEA IRER, EPROR A ERRE E 
MySQL 5.0 和 更 新 版 本 中 ， 可 以 使 用 触发 器 更 新 缓存 值 ， 这 使 得 实现 这 样 的 方案 变 得 更 
简单 。 


在 我 们 的 网 站 实例 中 ， 可 以 在 user 表 和 message 表 中 都 存储 account_type 字段 ， 而 不 
用 完全 的 反 范 式 化 。 这 避免 了 完全 反 范 式 化 的 插入 和 删除 问题 ， 因 为 即使 没有 消息 的 时 
候 也 绝 不 会 丢失 用 户 的 信息 。 这 样 也 不 会 把 _ user_message 表 搞 得 太 大 ， 有 利于 高 效 地 
获取 数据 。 
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但 是 现在 更 新 用 户 的 账户 类 型 的 操作 代价 就 高 了 ， 因 为 需要 同时 更 新 两 张 表 。 至 于 这 会 
不 会 是 一 个 问题 ， 需 要 考虑 更 新 的 频率 以 及 更 新 的 时 长 ， 并 和 执行 SELECT 查询 的 频率 进 
行 比较 。 


另 一 个 从 父 表 元 余 一 些 数据 到 子 表 的 理由 是 排序 的 需要 。 例如 ， 在 范式 化 的 schema 里 通 
过 作者 的 名 字 对 消息 做 排序 的 代价 将 会 非常 高 ， 但 是 如 果 在 message 表 中 缓存 author_ 
name 字段 并 且 建 好 索引 ， 则 可 以 非常 高 效 地 完成 排序 。 


缓存 衍生 值 也 是 有 用 的 。 如 果 需 要 显示 每 个 用 户 发 了 多 少 消 息 〈 像 很 多 论坛 做 的 ) ， 可 以 
每 次 执行 一 个 昂贵 的 子 查询 来 计算 并 显示 它 ; 也 可 以 在 user 表 中 建 一 个 num_messages 
列 ， 每 当 用 户 发 新 消息 时 更 新 这 个 值 。 


4.4 缓存 表 和 汇总 表 


有 时 提升 性 能 最 好 的 方法 是 在 同一 张 表 中 保存 衍生 的 元 余数 据 。 然 而 ， 有 时 也 需要 创建 
一 张 完 全 独立 的 汇总 表 或 缓存 表 (特别 是 为 满足 检索 的 需求 时 )。 如 果 能 容许 少量 的 脏 
数据 ， 这 是 非常 好 的 方法 ， 但 是 有 时 确实 没有 选择 的 余地 (例如 ， 需 要 避免 复杂 、 昂 贵 
的 实时 更 新 操作 )。 


术语 “缓存 表 ” 和 “汇总 表 ” 没 有 标准 的 含义 。 我 们 用 术语 “缓存 表 ” 来 表示 存储 那些 
可 以 比较 简单 地 从 schema 其 他 表 获 取 (但 是 每 次 获取 的 速度 比较 慢 ) 数据 的 表 (例如 ， 
逻辑 上 元 余 的 数据 ) 。 而 术语 汇总 表 时 , 则 保存 的 是 使 用 GROUP BY 语句 聚合 数据 的 表 ( 例 
如 ， 数 据 不 是 逻辑 上 元 余 的 )。 也 有 人 使 用 术语 “累积 表 (Roll-Up Table) ”称呼 这 些 表 。 
因为 这 些 数 据 被 “累积 ”了 。 


仍然 以 网 站 为 例 ， 假 设 需要 计算 之 前 24 小 时 内 发 送 的 消息 数 。 在 一 个 很 繁忙 的 网 站 不 
可 能 维护 一 个 实时 精确 的 计数 器 。 作 为 替代 方案 ， 可 以 每 小 时 生成 一 张 汇 总 表 。 这 样 也 
许 一 条 简单 的 查询 就 可 以 做 到 ， 并 且 比 实时 维护 计数 器 要 高 效 得 多 。 缺 点 是 计数 器 并 不 
是 100% 精确 。 


如 条 必 须 获 得 过 去 24 小 时 准确 的 销 旧 发 送 数量 〈 没 有 遗漏 )， 有 另外 一 种 选择 。 以 每 小 
时 汇总 表 为 基础 ， 把 前 23 个 完整 的 小 时 的 统计 表 中 的 计数 全 部 加 起 来 ， 最 后 再 加 上 开 
始 阶段 和 绪 束 阶段 不 完整 的 小 时 内 的 计数 。 假 设 统计 表 叫 作 msg_per_hr 并 且 这 样 定义 : 
CREATE TABLE msg per hr ( o 
hr DATETIME NOT NULL, 


cnt INT UNSIGNED NOT NULL, 
PRIMARY KEY(hr) 


); 
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可 以 通过 把 下 面 的 三 个 语句 的 结果 加 起 来 ， 得 到 过 去 24 小 时 发 送 消息 的 总 数 。 我 们 使 
用 LEFT(NOW() ,14) 来 获得 当前 的 日 期 和 时 间 最 接近 的 小 时 : 
mysql> SELECT SUM(cnt) FROM msg_per_hr 
-> WHERE hr BETWEEN 
->  CONCAT(LEFT(NOW(), 14), '00:00') - INTERVAL 23 HOUR 
-> AND CONCAT(LEFT(NOW(), 14), '00:00') - INTERVAL 1 HOUR; 
mysql> SELECT COUNT(*) FROM message 
-> WHERE posted >= NOW() - INTERVAL 24 HOUR 
-> AND posted < CONCAT(LEFT(NOW(), 14), '00:00') - INTERVAL 23 HOUR; 


mysql> SELECT COUNT(*) FROM message 
-> WHERE posted >= CONCAT(LEFT(NOW(), 14), '00:00'); 


管 是 哪 种 方法 一 一 不 严格 的 计数 或 通过 小 范围 查询 填 满 间隙 的 严格 计数 一 一 都 比 计算 
message 表 的 所 有 行 要 有 效 得 多 。 这 是 建立 汇总 表 的 最 关键 原因 。 实 时 计算 统计 值 是 很 
昂贵 的 操作 ， 因 为 要 么 需要 扫描 表 中 的 大 部 分 数据 ， 要 么 查询 语句 只 能 在 某 些 特定 的 索 
引 上 才能 有 效 运行 ， 而 这 类 特定 索引 一 般 会 对 UPDATE 操作 有 影响 ， 所 以 一 般 不 希望 创建 
这 样 的 索引 。 计 算 最 活跃 的 用 户 或 者 最 常见 的 “标签 ”是 这 种 操作 的 典型 例子 。 


缓存 表 则 相反 ， 其 对 优化 搜索 和 检索 查询 语句 很 有 效 。 这 些 查 询 语句 经 党 需要 特殊 的 表 
和 索引 结构 ， 跟 普通 OLTP 操作 用 的 表 有 些 区 别 。 


例如 ， 可 能 会 需要 很 多 不 同 的 索引 组 合 来 加 速 各 种 类 型 的 查询 。 这 些 矛 盾 的 需求 有 时 需 
要 创建 一 张 只 包含 主 表 中 部 分 列 的 缓存 表 。 一 个 有 用 的 技巧 是 对 缓存 表 使 用 不 同 的 存储 
引擎 。 例 如 ， 如 果 主 表 使 用 InnoDB， 用 MyISAM 作为 缓存 表 的 引擎 将 会 得 到 更 小 的 索 
引 占 用 空间 ， 并 且 可 以 做 全 文 搜索 。 有 时 甚至 想 把 整个 表 导 出 MySQL， 揪 入 到 专门 的 
搜索 系统 中 获得 更 高 的 搜索 效率 ， 例 如 Lucene 或 者 Sphinx 搜索 引擎。 


在 使 用 缓存 表 和 汇总 表 时 ， 必 须 决定 是 实时 维护 数据 还 是 定期 重建 。 哪 个 更 好 依赖 于 应 
用 程序 ,但 是 定期 重建 并 不 只 是 市 省 资源 ， 也 可 以 保持 表 不 会 有 很 多 碎片 ， 以 及 有 完全 
顺序 组 织 的 索引 (这 会 更 加 高 效 )。 


当 重 建 汇总 表 和 缓存 表 时 ,通常 需要 保证 数据 在 操作 时 依然 可 用 。 这 就 需要 通过 使 用 “ 影 
子 表 ”来 实现 , “影子 表 指 的 是 一 张 在 真实 表 背后 创建 的 表 。 当 完成 了 建 表 操 作 后 ， 
可 以 通过 一 个 原子 的 重 命 名 操作 切换 影子 表 和 原 表 。 例 如 ， 如 有 果 和 需要 重建 my_summary, 
则 可 以 先 创建 my_summary_new， 然 后 填充 好 数据 ， 最 后 和 真实 表 做 切换 : 





mysql> DROP TABLE IF EXISTS my_summary_new, my_summary_old; 

mysql> CREATE TABLE my_summary_new LIKE my_summary; 

-- populate my_summary new as desired 

mysql> RENAME TABLE my_summary TO my_summary_old, my_summary_new TO my_summary; 
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如 果 像 上 面 的 例子 一 样 ， 在 将 my_summary 这 个 名 字 分 配给 新 建 的 表 之 前 将 原始 的 my _ 
summary 表 重 命名 为 my_summary_old， 就 可 以 在 下 一 次 重建 之 前 一 直 保 留 旧 版 本 的 数据 。 
如 采 新 表 有 问题 ， 则 可 以 很 容易 地 进行 快速 回 滚 操作 。 


4.4.1 物化 视图 

许多 数据 库 管理 系统 (例如 Oracle 或 者 微软 SQL Server) 都 提供 了 一 个 被 称 作物 化 视图 
的 功能 。 物 化 视图 实际 上 是 预先 计算 并 且 存 储 在 磁盘 上 的 表 ， 可 以 通过 各 种 各 样 的 策略 
刷新 和 更 新 。MySQL 并 不 原生 支持 物化 视图 (我们 将 在 第 7 章 详细 探讨 支持 这 种 视图 
的 细节 )。 然 而 ， 使 用 Justin Swanhart 的 开源 工具 Flexviews (http://code.google.com/p/ 
flexviews/)， 也 可 以 自己 实现 物化 视图 。Flexviews 比 完全 自己 实现 的 解决 方案 要 更 精细 ， 
并 且 提 供 了 很 多 不 错 的 功能 使 得 可 以 更 简单 地 创建 和 维护 物化 视图 。 它 由 下 面 这 些 部 分 
组 成 : 


。 变更 数据 抓 取 (Change Data Capture, CDC) 功能 ， 可 以 读 取 服务 器 的 二 进 制 日 志 
并 且 解 析 相 关 行 的 变更 。 

© 一 系列 可 以 帮助 创建 和 管理 视图 的 定义 的 存储 过 程 。 

e 一些 可 以 应 用 变更 到 数据 库 中 的 物化 视图 的 工具 。 


对 比 传统 的 维护 汇总 表 和 缓存 表 的 方法 ，Flexviews 通过 提取 对 源 表 的 更 改 ， 可 以 增 量 地 
重新 计算 物化 视图 的 内 容 。 这 意味 着 不 需要 通过 查询 原始 数据 来 更 新 视图 。 例 如 ， 如 果 
创建 了 一 张 汇 总 表 用 于 计算 每 个 分 组 的 行 数 ， 此 后 增加 了 一 行 数据 到 源 表 中 ，Flexviews 
简单 地 给 相应 的 组 的 行 数 加 一 即 可 。 同 样 的 技术 对 其 他 的 聚合 国 数 也 有 效 ， 例 如 SUM ) 
和 AVG()。 这 实际 上 是 有 好 处 的 ， 基 于 行 的 二 进 制 日 志 包 含 行 更 新 前 后 的 镜像 ， 所 以 
Flexviews 不 仅仅 可 以 获得 每 行 的 新 值 ， 还 可 以 不 需要 查找 源 表 就 能 知道 每 行 数据 的 旧版 
本 。 计 算 增 量 数据 比 从 源 表 中 读 取 数据 的 效率 要 高 得 多 。 


因为 版 面 的 限制 , 这 里 我 们 不 会 完整 地 探讨 怎么 使 用 Flexviews, 但 是 可 以 给 出 一 个 概略 。 
先 写 出 一 个 SELECT 语句 描述 想 从 已 经 存在 的 数据 库 中 得 到 的 数据 。 这 可 能 包含 关联 和 聚 
Æ (GROUP BY) 。Flexviews 中 有 一 个 辅助 工具 可 以 转换 SQL 语句 到 Flexviews 的 API 调用 。 
Flexviews 会 做 完 所 有 的 脏 活 、 累 活 : 监控 数据 库 的 变更 并 且 转 换 后 用 于 更 新 存储 物化 视 
图 的 表 。 现 在 应 用 可 以 简单 地 查询 物化 视图 来 替代 查询 需要 检索 的 表 。 


Flexviews 有 不 错 的 SQL 覆盖 范围 ， 包 括 一 些 棘 手 的 表达 式 ， 你 可 能 没有 料 到 一 个 工具 
可 以 在 MySQL 服务 器 之 外 处 理 这 些 工作 。 这 一 点 对 创建 基于 复杂 SQL 表达 式 的 视图 很 
有 用 ， 可 以 用 基于 物化 视图 的 简单 、 快 速 的 查询 替换 原来 复杂 的 查询 。 
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4.4.2 计数 器 表 


如 果 应 用 在 表 中 保存 计数 器 ， 则 在 更 新 计数 器 时 可 能 磁 到 并 发 问题 。 计 数 器 表 在 Web 应 

用 中 很 常见 。 可 以 用 这 种 表 缓 存 一 个 用 户 的 朋友 数 、 文 件 下 载 次 数 等 。 创 建 一 张 独立 的 

表 存 储 计数 器 通常 是 个 好 主意 ， 这 样 可 使 计数 器 表 小 且 快 。 使 用 独立 的 表 可 以 帮助 避免 

查询 缓存 失效 ， 并 且 可 以 使 用 本 市 展示 的 一 些 更 高 级 的 技巧 。 

应 该 让 事情 变 得 尽 可 能 简单 , 假设 有 一 个 计数 器 表 , 只 有 一 行 数据 , 记录 网 站 的 扣 击 次 数 : 
mysql> CREATE TABLE hit_counter ( 


-> cnt int unsigned not null 
-> ) ENGINE=InnoDB; 


网 站 的 每 次 点 击 都 会 导致 对 计数 器 进行 更 新 : 
mysql> UPDATE hit_counter SET cnt = cnt + 1; 


问题 在 于 ， 对 于 任何 想 要 更 新 这 一 行 的 事务 来 说 ， 这 条 记录 上 都 有 一 个 全 局 的 互 斥 锁 
(mutex)。 这 会 使 得 这 些 事务 只 能 串 行 执行 。 要 获得 更 高 的 并 发 更 新 性 能 ， 也 可 以 将 计 
数 器 保存 在 多 行 中 ， 每 次 随机 选择 一 行进 行 更 新 。 这 样 做 需要 对 计数 器 表 进 行 如 下 修改 : 
mysql> CREATE TABLE hit counter ( 
-> slot tinyint unsigned not null primary key, 


-> cnt int unsigned not null 
-> ) ENGINE=InnoDB; 


然后 预先 在 这 张 表 增 加 100 行 数据 。 现 在 选择 一 个 随机 的 槽 (slot) 进行 更 新 : 
mysql> UPDATE hit_counter SET cnt = cnt + 1 WHERE slot = RAND() * 100; 
要 获得 统计 结果 ， 需 要 使 用 下 面 这 样 的 聚合 查询 : 
mysql> SELECT SUM(cnt) FROM hit_counter; 
一 个 常见 的 需求 是 每 隔 一 段 时 间 开 始 一 个 新 的 计数 如 (例如 ， 每 天 一 个 )。 如 果 需 要 这 
么 做 ， 则 可 以 再 简单 地 修改 一 下 表 设 计 : 
mysql> CREATE TABLE daily hit_counter ( 
-> day date not null, 
-> slot tinyint unsigned not null, 
-> cnt int unsigned not null, 


-> primary key(day, slot) 
-> ) ENGINE=InnoDB; 


在 这 个 场景 中 ， 可 以 不 用 像 前 面 的 例子 那样 预先 生成 行 ， 而 用 ON DUPLICATE KEY 
UPDATE 代替 : 
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mysql> INSERT INTO daily hit_counter(day, slot, cnt) 
->  VALUES(CURRENT DATE, RAND() * 100, 1) 
-> ON DUPLICATE KEY UPDATE cnt = cnt + 1; 
如 果 希 望 减少 表 的 行 数 ， 以 避免 表 变 得 太 大 ， 可 以 写 一 个 周期 执行 的 任务 ， 合 并 所 有 结 
RA 0 号 槽 ， 并 且 删 除 所 有 其 他 的 槽 : 


mysql> UPDATE daily hit_counter as c 
-> INNER JOIN ( 


-> SELECT day, SUM(cnt) AS cnt, MIN(slot) AS mslot 
-> FROM daily hit_counter 
-> GROUP BY day 


->  ) AS x USING(day) 
-> SET c.cnt = IF(c.slot = x.mslot, x.cnt, 0), 
-> c.slot = IF(c.slot = x.mslot, 0, c.slot); 
mysql> DELETE FROM daily hit_counter WHERE slot <> 0 AND cnt = 0; 


ERER, EES 
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存 表 和 汇总 表 。 这 些 方法 会 增加 写 查 询 的 负担 ， 也 需要 人 额外 的 维护 任务 ， 但 在 设计 
高 性 能 数据 库 时 ， 这 些 都 是 常见 的 技巧 : 虽然 写 操 作 变 得 更 慢 了 ， 但 更 显著 地 提高 
了 读 操作 的 性 能 。 


然而 ， 写 操作 变 慢 并 不 是 读 操作 变 得 更 快 所 付出 的 唯一 代价 ， 还 可 能 同时 增加 了 读 
操作 和 写 操作 的 开发 难度 。 





4.5 加 快 ALTER TABLE 操作 的 速度 


MySQL 的 ALTER TABLE 操作 的 性 能 对 大 表 来 说 是 个 大 问题 。MySQL 执行 大 部 分 修改 表 
结构 操作 的 方法 是 用 新 的 结构 创建 一 个 空 表 ， 从 旧 表 中 查 出 所 有 数据 插入 新 表 ， 然 后 删 
除 旧 表 。 这 样 操作 可 能 需要 花费 很 长 时 间 ， 如 果 内 存 不 足 而 表 又 很 大 ， 而 且 还 有 很 多 索 
引 的 情况 下 尤其 如 此 。 许 多 人 都 有 这 样 的 经 验 ，ALTER TABLE 操作 需要 花费 数 个 小 时 其 
至 数 天 才能 完成 。 


MySQL 5.1 以 及 更 新 版 本 包含 一 些 类 型 的 “在 线 ”操作 的 支持 ， 这 些 功 能 不 需要 在 整个 
操作 过 程 中 锁 表 。 最 近 版 本 的 InnoDB ”也 支持 通过 排序 来 建 索 引 ， 这 使 得 建 索 引 更 快 
并 且 有 一 个 紧凑 的 索引 布局 。 


注 15 : 就 是 所 谓 的 “InnoDB plugin”, MySQL 5.5 和 更 新 版 本 中 唯一 的 InnoDB。 请 参考 第 1 章 中 关于 
InnoDB 发 布 历史 的 细节 。 
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一 般 而 言 ， 大 部 分 ALTER TABLE 操作 将 导致 MySQL 服务 中 断 。 我 们 会 展示 一 些 在 DDL 
操作 时 有 用 的 技巧 ， 但 这 是 针对 一 些 特殊 的 场景 而 言 的 。 对 常见 的 场景 ， 能 使 用 的 技巧 
只 有 两 种 : 一 种 是 先 在 一 台 不 提供 服务 的 机 器 上 执行 ALTER TABLE 操作 ， 然 后 和 提供 服 
务 的 主 库 进行 切换 ; 另外 一 种 技巧 是 “影子 撕 贝 "。 影 子 拷贝 的 技巧 是 用 要 求 的 表 结 构 
. 创建 一 张 和 源 表 无 关 的 新 表 ， 然 后 通过 重 命名 和 删 表 操作 交换 两 张 表 。 也 有 一 些 工具 
可 以 帮助 完成 影子 拷贝 工作 : Blan, Facebook 数据 库 运 维 团队 (Attps://launchpad.net/ 
mysqlatfacebook) 的 “online schema change” 工具 .Shlomi Noach 的 openark toolkit (http:// 
code.openark.org/), VAR Percona Toolkit (http://www.percona.com/software/) 。 如 果 使 
用 Flexviews (参考 4.4.1 节 ) ， 也 可 以 通过 其 CDC 工具 执行 无 锁 的 表 结 构 变更 。 


不 是 所 有 的 ALTER TABLE 操作 都 会 引起 表 重 建 。 例 如 ， 有 两 种 方法 可 以 改变 或 者 删除 一 
个 列 的 默认 值 (一 种 方法 很 快 ， 另 外 一 种 则 很 慢 )。 假 如 要 修改 电影 的 默认 租赁 期 限 ， 从 
三 天 改 到 五 天 。 下 面 是 很 慢 的 方式 : 


mysql> ALTER TABLE sakila. film 
-> MODIFY COLUMN rental _ duration TINYINT(3) NOT NULL DEFAULT 5; 


SHOW STATUS 显示 这 个 语句 做 了 1 000 次 读 和 1 000 次 插入 操作 。 换 句 话 说 ， 它 拷贝 了 整 
张 表 到 一 张 新 表 ， 甚 至 列 的 类 型 、 大 小 和 可 否 为 NULL 属性 都 没 改 变 。 


理论 上 ，MySQL 可 以 跳 过 创建 新 表 的 步骤 。 列 的 默认 值 实 际 上 存在 表 的 frm 文件 中 ， 
所 以 可 以 直接 修改 这 个 文件 而 不 需要 改动 表 本 身 。 然 而 MySQL 还 没有 采用 这 种 优化 的 
方法 ， 所 有 的 MODIFY COLUMN 操作 都 将 导致 表 重 建 。 


另外 一 种 方法 是 通过 ALTER COLUMN 于 “操作 来 改变 列 的 默认 值 : 


mysql> ALTER TABLE sakila.film 
-> ALTER COLUMN rental duration SET DEFAULT 5; 


这 个 语句 会 直接 修改 .frm 文件 而 不 涉及 表 数 据 。 所 以 ， 这 个 操作 是 非常 快 的 。 


4.5.1 只 修改 .frm 文件 

从 上 面 的 例子 我 们 看 到 修改 表 的 frm 文件 是 很 快 的 ， 但 MySQL 有 时 候 会 在 没有 必要 的 
时 候 也 重建 表 。 如 果 愿 意 冒 一 些 风险 ， 可 以 让 MySQL 做 一 些 其 他 类 型 的 修改 而 不 用 重 
建 表 。 


注 16 : ALTER TABLE 允许 使 用 ALTER COLUMN, MODIFY COLUMN 和 CHANGE COLUMN 语句 修改 列 。 这 三 种 操 
作 都 是 不 一 样 的 。 
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我 们 下 面 要 演示 的 技 马 是 不 受 官方 支持 的 ， 也 设 有 文档 记录 ， 并 且 也 可 能 不 能 正常 
工作 ， 采 用 这 些 技术 需要 自己 承担 风险 。 建 议 在 执行 之 前 首先 备份 数据 ! 





下 面 这 些 操作 是 有 可 能 不 需要 重建 表 的 : 


© BR (不 是 增加 ) 一 个 列 的 AUTO_INCREMENT 属性 。 
e 增加 、 移 除 , 或 更 改 ENUM 和 SET 常量。 如果 移 除 的 是 已 经 有 行 数 据 用 到 其 值 的 常量 ， 
查询 将 会 返回 一 个 空 字 串 值 。 


基本 的 技术 是 为 想 要 的 表 结 构 创建 一 个 新 的 frm 文件 ， 然 后 用 它 蔡 换 掉 已 经 存在 的 那 张 
表 的 frm 文件 ， 像 下 面 这 样 : 


创建 一 张 有 相同 结构 的 空 表 ， 并 进行 所 需要 的 修改 (例如 增加 ENUM 常量 )。 


2. 执行 FLUSH TABLES WITH READ LOCK。 这 将 会 关闭 所 有 正在 使 用 的 表 ， 并 且 禁 止 任 


何 表 被 打开 。 


. 3. Hkt frm XH. 
4. 执行 UNLOCK TABLES 来 释放 第 2 步 的 读 锁 。 


下 面 以 给 sakila.film 表 的 rating 列 增加 一 个 常量 为 例 来 说 明 。 当 前 列 看 起 来 如 下 : 


eee Be COLUMNS FROM sakila.film LIKE 'rating'; 


+--------+------------------------------------ +------ +----- +--------- +------- + 
| Field | Type | Null | Key | Default | Extra | 
--------+------------------------------------ +------+-----+---------+-------+ 

| rating | enum('G','PG', 'PG-13','R','NC-17') | YES | | G | 
+-------- +------------------------------------ +------ +----- +--------- +------- + 


假设 我 们 需要 为 那些 对 电影 更 加 谨慎 的 父母 们 增加 一 个 PG-14 的 电影 分 级 : 


mysql> CREATE TABLE sakila.film new LIKE sakila.film; 

mysql> ALTER TABLE sakila.film new 
-> MODIFY COLUMN rating ENUM('G','PG','PG-13','R','NC-17', 'PG-14') 
-> DEFAULT 'G'; 

mysql> FLUSH TABLES WITH READ LOCK; 


注意 ， 我 们 是 在 常量 列表 的 末尾 增加 一 个 新 的 值 。 如 果 把 新 增 的 值 放 在 中 间 ， 例 如 
PG-13 之 后 ， 则 会 导致 已 经 存在 的 数据 的 含义 被 改变 : 已 经 存在 的 R 值 将 变 成 PG-14， 
而 已 经 存在 的 NC-17 将 成 为 R， 等 等 。 
接 下 来 用 操作 系统 的 命令 交换 frm 文件 : 

/var/lib/mysql/sakila# mv film.frm film tmp.frm 


/var/lib/mysql/sakila# mv film new.frm film. frm 
/var/lib/mysql/sakila# mv film tmp.frm film_new. frm 


再 回 到 MySQL 命令 行 ， 现 在 可 以 解锁 表 并 且 看 到 变更 后 的 效 采 了 : 
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mysql> UNLOCK TABLES; 


mysql> SHOW COLUMNS FROM sakila.film LIKE ‘rating'\G 
HRA AKA KK AKA AKA KAR RRR A 1 roy RRR RRR RRR ARK KK kkk kk 


Field: rating 
Type: enum('G','PG','PG-13','R', 'NC-17', 'PG-14') 


最 后 需要 做 的 是 删除 为 完成 这 个 操作 而 创建 的 辅助 表 : 


mysql> DROP TABLE sakila.film_new; 


4.5.2 快速 创建 MyISAM 索引 


为 了 高 效 地 载 人 数据 到 MyISAM 表 中 ， 有 一 个 常用 的 技巧 是 先 禁用 索引 、 载 入 数据 ， 然 
后 重新 启用 索引 : 
mysql> ALTER TABLE test.load data DISABLE KEYS; 


-- load the data 
mysql> ALTER TABLE test.load_ data ENABLE KEYS; 


这 个 技巧 能 够 发 挥 作 用 ， 是 因为 构建 索引 的 工作 被 延迟 到 数据 完全 载 人 人 以后， 这 个 时 候 
已 经 可 以 通过 排序 来 构建 索引 了 。 这 样 做 会 快 很 多 ， 并且 使 得 索引 树 “"” 的 碎片 更 少 、 更 


不 幸 的 是 ， 这 个 办 法 对 唯一 索引 无 效 ， 因 为 DISABLE KEYS 只 对 非 唯一 索引 有 效 。 
MyISAM 会 在 内 存 中 构造 唯一 索引 ， 并 且 为 载 和 的 每 一 行 检 查 唯一 性 。 一 旦 索引 的 大 小 
超过 了 有 效 内 存 大 小 ， 载 人 操作 就 会 变 得 越 来 越 慢 。 


在 现代 版 本 的 InnoDB 版 本 中 ， 有 一 个 类 似 的 技巧 ， 这 依赖 于 InnoDB 的 快速 在 线索 引 
创建 功能 。 这 个 技巧 是 ， 先 删除 所 有 的 非 唯一 索引 ， 然 后 增加 新 的 列 ， 最 后 重新 创建 删 
RIAS]. Percona Server 可 以 自动 完成 这 些 操作 步骤 。 


也 可 以 使 用 像 前 面 说 的 ALTER TABLE 的 骇 客 方法 来 加 速 这 个 操作 ， 但 需要 多 做 一 些 工作 
并 且 承 担 一 定 的 风险 。 这 对 从 备份 中 载 入 数据 是 很 有 用 的 ， 例 如 ， 当 已 经 知道 所 有 数据 
都 是 有 效 的 并 且 没 有 必要 做 唯一 性 检查 时 就 可 以 这 么 来 操作 。 


— 再 次 说 明 ， 这 是 没有 文档 说 明 并 且 不 受 官 方 支持 的 技巧 。 若 使 用 的 话 ， 需 要 自己 承 
-S 担 风险 ， 并 且 操 作 之 前 一 定 要 先 备份 数据 。 


下 面 是 操作 步 又 : 
1. 用 需要 的 表 结 构 创 建 一 张 表 ， 但 是 不 包括 索引 。 


注 17 : 如 果 使 用 的 是 LOAD DATA FILE， 并 且 要 载 入 的 表 是 空 的 ，MyISAM 也 可 以 通过 排序 来 构造 索引 。 
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载 和 数据 到 表 中 以 构建 MYD 文件 。 

按照 需要 的 结构 创建 另外 一 张 空 表 ， 这 次 要 包含 索引 。 这 会 创建 需要 的 frm 和 MYT 
文件 。 : 
获取 读 锁 并 刷新 表 。 

重 命名 第 二 张 表 的 frm 和 .M 开 文件 ， 让 MySQL 认为 是 第 一 张 表 的 文件 。 

释放 读 锁 。 

使 用 REPAIR TABLE 来 重建 表 的 索引 。 该 操作 会 通过 排序 来 构建 所 有 索引 ， 包 括 唯一 
索引 。 


这 个 操作 步骤 对 大 表 来 说 会 快 很 多 。 


4.6 总 结 
良好 的 schema 设计 原则 是 普遍 适用 的 ， 但 MySQL 有 它 自己 的 实现 细节 要 注意 。 概 括 来 


说 ， 


尽 可 能 保持 任何 东西 小 而 简单 总 是 好 的 。MySQL 喜欢 简单 ， 需 要 使 用 数据 库 的 人 


应 该 也 同样 会 喜欢 简单 的 原则 : 


尽量 避免 过 度 设计 ， 例 如 会 导致 极其 复杂 查询 的 schema 设计 ， 或 者 有 很 多 列 的 表 设 
it (很 多 的 意思 是 介 于 有 点 多 和 非常 多 之 间 )。 

使 用 小 而 简单 的 合适 数据 类 型 ， 除 非 真 实数 据 模型 中 有 确切 的 需要 ， 否 则 应 该 尽 可 
能 地 避免 使 用 NULL 值 。 | 

尽量 使 用 相同 的 数据 类 型 存储 相似 或 相关 的 值 ， 尤 其 是 要 在 关联 条 件 中 使 用 的 列 。 
注意 可 变 长 字符 串 ， 其 在 临时 表 和 排序 时 可 能 导致 翡 观 的 按 最 大 长 度 分 配 内 存 。 
尽量 使 用 整 型 定义 标识 列 。 

避免 使 用 MySQL 已 经 遗弃 的 特性 ， 例 如 指定 浮 点 数 的 精度 ， 或 者 整数 的 显示 宽度 。 
小 心 使 用 ENUM 和 SET。 虽 然 它们 用 起 来 很 方便 ， 但 是 不 要 滥用 ， 否 则 有 了 时 候 会 变 成 
陷阱 。 最 好 避免 使 用 BIT. 


范式 是 好 的 ， 但 是 反 范 式 〈 大 多 数 情况 下 意味 着 重复 数据 ) 有 时 也 是 必需 的 ， 并 且 能 带 
来 好 处 。 第 5 章 我 们 将 看 到 更 多 的 例子 。 预 先 计 算 、 缓 存 或 生成 汇总 表 也 可 能 获得 很 大 
的 好 处 。Justin Swanhart 的 Flexviews 工具 可 以 帮助 维护 汇总 表 。 


最 后 ，ALTER TABLE 是 让 人 痛 吉 的 操作 ， 因 为 在 大 部 分 情况 下 ， 它 都 会 锁 表 并 且 重 建 整 
张 表 。 我 们 展示 了 一 些 特殊 的 场景 可 以 使 用 骇 客 方法 ; 但 是 对 大 部 分 场景 ， 必 须 使 用 其 
他 更 常规 的 方法 ， 例 如 在 备 机 执行 ALTER 并 在 完成 后 把 它 切换 为 主 库 。 本 书后 续 章 节 会 
有 更 多 关于 这 方面 的 内 容 。 
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第 5 章 on 


创建 高 性 能 的 索引 


索引 (在 MySQL 中 也 叫做 “ 键 (key)”) 是 存储 引擎 用 于 快速 找到 记录 的 一 种 数据 结构 。 
这 是 索引 的 基本 功能 ， 除 此 之 外 ， 本 章 还 将 讨论 索引 其 他 一 些 方 面 有 用 的 属性 。 


索引 对 于 良好 的 性 能 非常 关键 。 尤 其 是 当 表 中 的 数据 量 越 来 越 大 时 ， 索 引 对 性 能 的 影响 
愈 发 重要 。 在 数据 量 较 小 且 负 载 较 低 时 ， 不 恰当 的 索引 对 性 能 的 影响 可 能 还 不 明显 ， 但 
当 数 据 量 逐 渐 增 大 时 ， 性 能 则 会 急剧 下 降 -'。 


不 过 ， 索 引 却 经 常 被 忽略 ， 有 了 时 候 其 至 被 误解 ， 所 以 在 实际 案例 中 经 常会 遇 到 由 糟糕 索 
引导 致 的 问题 。 这 也 是 我 们 把 索引 优化 放 在 了 靠 前 的 章节 ， 其 至 比 查 询 优化 还 靠 前 的 原 
Al. 


Slit ize ERE he ER. SREB RS ie Rete LTR 
量 级 ， 最 优 ，” 的 索引 有 时 比 一 个 “好 的 ”索引 性 能 要 好 两 个 数量 级 。 创 建 一 个 真正 “最 
优 ” 的 索引 经 常 需 要 重 写 查 询 ， 所 以 ， 本 章 和 下 一 章 的 关系 非常 紧密 。 


5.1 索引 基础 


要 理解 MySQL 中 索引 是 如 何 工 作 的 , 最 简单 的 方法 就 是 去 看 看 一 本 书 的 “索引 ”部 分 : 
如 果 想 在 一 本 书 中 找到 某 个 特定 主题 ， 一 般 会 先 看 书 的 “索引 ， 找 到 对 应 的 页 码 。 


在 MySQL 中 ,存储 引 警 用 类 似 的 方法 使 用 索引 ， 其 先 在 索引 中 找到 对 应 值 ， 然 后 根据 
匹配 的 索引 记录 找到 对 应 的 数据 行 。 假 如 要 运行 下 面 的 查询 : | 


1: 除非 特别 说 明 , 本章 假设 使 用 的 都 是 传统 的 硬盘 驱动 器 。 固态 硬盘 驱动 器 有 着 完全 不 同 的 性 能 特性 ， 
本 书 将 对 此 进行 详细 的 描述 。 然 而 即使 是 固态 硬盘 ， 索 引 的 原则 依然 成 立 ， 只 是 那些 需要 尽量 避 
免 的 糟糕 索引 对 于 固态 硬盘 的 影响 没有 传统 硬盘 那么 糟糕 。 
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mysql> SELECT first_name FROM sakila.actor WHERE actor_id = 5; 


如 果 在 actor id 列 上 建 有 索引 ， 则 MySQL 将 使 用 该 索引 找到 actor id ASW, E 
就 是 说 ，MySQL 先 在 索引 上 按 值 进 行 查找 ， 然 后 返回 所 有 包含 该 值 的 数据 行 。 


索引 可 以 包含 一 个 或 多 个 列 的 值 。 如 果 索 引 包 含 多 个 列 ， 那 么 列 的 顺序 也 十 分 重要 ， 因 
为 MySQL 只 能 高 效 地 使 用 索引 的 最 左前 级 列 。 创 建 一 个 包含 两 个 列 的 索引 ， 和 创建 两 
个 只 包含 一 列 的 索引 是 大 不 相同 的 ， 下 面 将 详细 介绍 。 


如 果 使 用 的 是 ORM， 是 否 还 需要 关心 索引 ? 
简 而 言 之 : 是 的 ， 仍 然 需要 理解 索引 ， 即 使 是 使 用 对 象 关系 映射 (ORM) 工具 。 


ORM 工具 能 够 生产 符合 逻辑 的 、 合 法 的 查询 〈 多 数 时 候 ) ， 除 非 只 是 生成 非常 基本 
的 查询 (例如 仅 是 根据 主键 查询 )， 否 则 它 很 难 生成 适合 索引 的 查询 。 无 论 是 多 么 
复杂 的 ORM 工具 ， 在 精妙 和 复杂 的 索引 面前 都 是 “浮云 "。 读 完 本 章 后 面 的 内 容 
以 后 ， 你 就 会 同意 这 个 观点 的 ! 很 多 时 候 ， 即 使 是 查询 优化 技术 专家 也 很 难 兼顾 到 
各 种 情况 ,更 别 说 ORM 了 。 


5.1.1 索引 的 类 型 

索引 有 很 多 种 类 型 ， 可 以 为 不 同 的 场景 提供 更 好 的 性 能 。 在 MySQL 中 ,索引 是 在 存储 
引擎 层 而 不 是 服务 器 层 实 现 的 。 所 以 ， 并 没有 统一 的 索引 标准 : 不 同 存储 引 警 的 索引 的 
工作 方式 并 不 一 样 ， 也 不 是 所 有 的 存储 引擎 都 支持 所 有 类 型 的 索引 。 即 使 多 个 存储 引擎 
支持 同一 种 类 型 的 索引 ， 其 底层 的 实现 也 可 能 不 同 。 


下 面 我 们 先 来 看 看 MySQL 支持 的 索引 类 型 ， 以 及 它们 的 优点 和 缺点 。 


B-Tree 索引 

当 人 们 谈论 索引 的 时 候 ， 如 果 没 有 特别 指明 类 型 ， 那 多 半 说 的 是 B-Tree 索引 ， 它 使 用 

B-Tree 数据 结构 来 存储 数据 站 *。 大 多 数 MySQL 引擎 都 支持 这 种 索引 。Archive 引擎 是 
一 个 例外 : 5.1 之 前 Archive 不 支持 任何 索引 ， 直 到 5.1 才 开 始 支持 单个 自 增 列 (AUTO 

INCREMENT) 的 索引 。 

我 们 使 用 术语 “B-Tree” ,是 因为 MySQL 在 CREATE TABLE 和 其 他 语句 中 也 使 用 该 关键 字 。 


注 2: 实际 上 很 多 存储 引擎 使 用 的 是 BHTree， 即 每 一 个 叶子 节点 都 包含 指向 下 一 个 叶子 节点 的 指针 ， 从 
而 方便 叶子 节点 的 范围 遍历 。 对 于 B-Tree 更 详细 的 细节 可 以 参考 相关 计算 机 科学 方面 的 书籍 。 
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不 过 ， 底 层 的 存储 引擎 也 可 能 使 用 不 同 的 存储 结构 ， 例 如 ，NDB 集群 存储 引擎 内 部 实际 
上 使 用 了 T-Tree 结构 存储 这 种 索引 ， 即 使 其 名 字 是 BTREE ; InnoDB 则 使 用 的 是 B+Tree， 
各 种 数据 结构 和 算法 的 变种 不 在 本 书 的 讨论 范围 之 内 。 


存储 引擎 以 不 同 的 方式 使 用 B-Tree 索引 ， 性 能 也 各 有 不 同 ， 各 有 优 劣 。 例 如 ,MyISAM 
使 用 前 绿 压 缩 技术 使 得 索引 更 小 ， 但 InnoDB 则 按照 原 数据 格式 进行 存储 。 再 如 
MyISAM 索引 通过 数据 的 物理 位 置 引 用 被 索引 的 行 ， 而 InnoDB 则 根据 主键 引用 被 索引 
的 行 。 


B-Tree 通常 意味 着 所 有 的 值 都 是 按 顺 序 存储 的 ， 并 且 每 一 个 叶子 页 到 根 的 距离 相同 。 图 
5-1 展示 了 B-Tree 索引 的 抽象 表示 ， 大 致 反映 了 InnoDB 索引 是 如 何 工作 的 。MyISAM 
使 用 的 结构 有 所 不 同 ， 但 基本 思想 是 类 似 的 。 


页 中 的 值 来 自 高 层 
CI 指向 子 页 的 指针 节点 页 的 指针 
要 指向 下 一 个 叶子 页 的 指针 


指向 数据 的 指针 
( 依赖 于 不 同 存储 引擎 ) 


| 一 一 逻辑 页 ， 大 小 一 一 > 
依赖 于 不 同 的 存储 引擎 ， 
对 于 InnoDB 为 16K 


图 5-1: 建立 在 B-Tree 结 构 (从 技术 上 来 说 是 B+Tree) 上 的 索引 


B-Tree 索引 能 够 加 快 访问 数据 的 速度 ， 因 为 存储 引擎 不 再 需要 进行 全 表 扫 描 来 获取 需要 
的 数据 ， 取 而 代 之 的 是 从 索引 的 根 节 点 〈 图 示 并 未 画 出 ) 开始 进行 搜索 。 根 市 点 的 槽 中 
存放 了 指向 子 节 点 的 指针 ， 存 储 引 获 根 据 这 些 指针 向 下 层 查 找 。 通 过 比较 市 点 页 的 值 和 
要 查找 的 值 可 以 找到 合适 的 指针 进入 下 层 子 节点 ， 这 些 指针 实际 上 定义 了 子 节 点 页 中 值 
的 上 限 和 下 限 。 最 终 存 储 引 擎 要 么 是 找到 对 应 的 值 ， 要 么 该 记录 不 存在 。 
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叶子 市 点 比较 特别 ， 它 们 的 指针 指向 的 是 被 索引 的 数据 ， 而 不 是 其 他 的 节点 页 (不同 引 
擎 的 “指针 ”类 型 不 同 ) 。 图 5-1 中 仅 绘 制 了 一 个 布 上 和 其 对 应 的 叶子 市 点 ， 其 实在 根 市 
扩 和 叶子 市 尽 之 间 可 能 有 很 多 层 市 点 页 。 树 的 深度 和 表 的 大 小 直接 相关 。 


B-Tree 对 索引 列 是 顺序 组 织 存储 的 ， 所 以 很 适合 查找 范围 数据 。 例 如 ， 在 一 个 基于 文本 
域 的 索引 树 上 ， 按 字母 顺序 传递 连续 的 值 进行 查找 是 非常 合适 的 ， 所 以 像 “ 找 出 所 有 以 
I 到 K 开头 的 名 字 ” 这 样 的 查找 效率 会 非常 高 。 


假设 有 如 下 数据 表 : 


CREATE TABLE People ( 
last name varchar(50) not null, 
first name varchar(50) not null, 
dob date not null, 
gender enum('m', 'f')not null, 
key(last_name, first_name, dob) 


); 


对 于 表 中 的 每 一 行 数据 ， 索 引 中 包含 了 last_name、first_name 和 dob 列 的 值 ， 图 5-2 显 
示 了 该 索引 是 如 何 组 织 数据 的 存储 的 。 





5-2: B-Tree (从 技术 上 来 说 是 B+Tree) 索引 树 中 的 部 分 条 目 示例 
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请 注意 ， 索 引 对 多 个 值 进行 排序 的 依据 是 CREATE TABLE 语句 中 定义 索引 时 列 的 顺序 。 看 181 
一 下 最 后 两 个 条 目 ， 两 个 人 的 姓 和 名 都 一 样 ， 则 根据 他 们 的 出 生日 期 来 排列 顺序 。 


可 以 使 用 B-Tree 索引 的 查询 类 型 。B-Tree 索引 适用 于 全 键 值 、 键 值 范 围 或 键 前 缀 查找 。 
其 中 键 前 缀 查找 只 适用 于 根据 最 左前 级 的 查找 *，。 前 面 所 述 的 索引 对 如 下 类 型 的 查询 有 
效 。 


全 值 匹配 
全 值 匹配 指 的 是 和 索引 中 的 所 有 列 进行 匹配 ， 例 如 前 面 提 到 的 索引 可 用 于 查找 姓名 
为 Cuba Allen, HÆF 1960-01-01 WA. 
匹配 最 左前 级 
前 面 提 到 的 索引 可 用 于 查找 所 有 姓 为 Allen 的 人 ， 即 只 使 用 索引 的 第 一 列 。 
匹配 列 前 级 
也 可 以 只 匹配 某 一 列 的 值 的 开头 部 分 。 例 如 前 面 提 到 的 索引 可 用 于 查找 所 有 以 J 开 
头 的 姓 的 人 。 这 里 也 只 使 用 了 索引 的 第 一 列 。 
匹配 范围 值 
例如 前 面 提 到 的 索引 可 用 于 查找 姓 在 Allen 和 Barrymore 之 间 的 人 。 这 里 也 只 使 用 
了 索引 的 第 一 列 。 
精确 匹配 某 一 列 并 范围 匹配 另外 一 列 
前 面 提 到 的 索引 也 可 用 于 查找 所 有 姓 为 Allen， 并 且 名 字 是 字母 K 开头 (比如 Kim.、 
Karl 等 ) 的 人 。 即 第 一 列 last_name 全 匹配 ， 第 二 列 first_name 范围 匹配 。 
只 访问 索引 的 查询 
B-Tree 通常 可 以 支持 “只 访问 索引 的 查询 ”， 即 查询 只 需要 访问 索引 ， 而 无 须 访问 
数据 行 。 后 面 我 们 将 单独 讨论 这 种 “覆盖 索引 ”的 优化 。 


因为 索引 树 中 的 节点 是 有 序 的 ， 所 以 除了 按 值 查找 之 外 ， 索 引 还 可 以 用 于 查询 中 的 
ORDER BY 操作 〈 按 顺序 查找 ) 。 一 般 来 说 ， 如 果 B-Tree 可 以 按照 某 种 方式 查找 到 值 ， 那 
么 也 可 以 按照 这 种 方式 用 于 排序 。 所 以 ， 如 果 ORDER BY 子 句 满足 前 面 列 出 的 几 种 查询 类 
型 ， 则 这 个 索引 也 可 以 满足 对 应 的 排序 需求 。 


下 面 是 一 些 关 于 B-Tree 索引 的 限制 : 


。 如果 不 是 按照 索引 的 最 左 列 开始 查找 ， 则 无 法 使 用 索引 。 例 如 上 面 例子 中 的 索引 无 1452] 
法 用 于 查找 名 字 为 Bill 的 人 ， 也 无 法 查找 某 个 特定 生日 的 人 ， 因 为 这 两 列 都 不 是 节 
左 数 据 列 。 类 似 地 ， 也 无 法 查找 姓氏 以 某 个 字母 结尾 的 人 。 


注 3: 这 是 MySQL 相关 的 特性 ， 划 至 和 具体 的 版 本 也 相关 。 其 他 有 些 数 据 库 也 可 以 使 用 索引 的 非 前 缓 部 
分 ， 虽 然 使 用 完全 的 前 缓 的 效率 会 更 好 。MySQL 未 来 也 可 能 会 提供 这 个 特性 ; 本 章 后 面 也 会 介绍 
一 些 绕 过 限制 的 方法 。 
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。 不 能 跳 过 索引 中 的 列 。 也 就 是 说 ， 前 面 所 述 的 索引 无 法 用 于 查找 姓 为 Smith 并 且 在 
某 个 特定 日 期 出 生 的 人 。 如 果 不 指定 名 (first_name) ， 则 MySQL 只 能 使 用 索引 的 
第 一 列 。 

。 如果 查询 中 有 某 个 列 的 范围 查询 ， 则 其 右边 所 有 列 都 无 法 使 用 索引 优化 查找 。 例 如 
有 查询 WHERE last name='Smith' AND first name LIKE 'J%' AND dob = '1976- 
12-23'， 这 个 查询 只 能 使 用 索引 的 前 两 列 ， 因 为 这 里 LIKE 是 一 个 范围 条 件 (但 是 服 
务 器 可 以 把 其 余 列 用 于 其 他 目的 )。 如 果 范 围 查询 列 值 的 数量 有 限 ， 那 么 可 以 通过 使 
用 多 个 等 于 条 件 来 代替 范围 条 件 。 在 本 章 的 索引 案例 学 习 部 分 ， 我 们 将 福 示 一 个 详 
细 的 案例 。 


到 这 里 读者 应 该 可 以 明白 ， 前 面 提 到 的 索引 列 的 顺序 是 多 么 的 重要 : 这 些 限 制 都 和 索引 
列 的 顺序 有 关 。 在 优化 性 能 的 时 候 ， 可 能 需要 使 用 相同 的 列 但 顺序 不 同 的 索引 来 满足 不 


也 有 些 限 制 并 不 是 B-Tree 本 身 导致 的 ， 而 是 MySQL 优化 器 和 存储 引擎 使 用 索引 的 方式 
导致 的 ， 这 部 分 限制 在 未 来 的 版 本 中 可 能 就 不 再 是 限制 了 。 


哈 希 索引 | 
哈 希 索引 (hash index) 基于 哈 希 表 实 现 ， 只 有 精确 匹配 索引 所 有 列 的 查询 才 有 效 站 *。 对 
于 每 一 行 数 据 ， 存 储 引擎 都 会 对 所 有 的 索引 列 计算 一 个 哈 希 码 (hash code), BABE 
一 个 较 小 的 值 ， 并 且 不 同 键 值 的 行 计算 出 来 的 哈 希 码 也 不 一 样 。 哈 希 索 引 将 所 有 的 哈 希 
码 存 储 在 索引 中 ， 同 时 在 哈 希 表 中 保存 指向 每 个 数据 行 的 指针 。 


Æ MySQL F, RA Memory 引擎 显 式 支持 哈 希 索引 。 这 也 是 Memory 引擎 表 的 默认 索 
5| 类 型 ，Memory 引擎 同时 也 支持 B-Tree 索引 。 值 得 一 提 的 是 ，Memory 引擎 是 支持 非 
唯一 哈 希 索引 的 ， 这 在 数据 库 世界 里 面 是 比较 与 众 不 同 的 。 如 果 多 个 列 的 哈 希 值 相同 ， 
索引 会 以 链表 的 方式 存放 多 个 记录 指针 到 同一 个 哈 希 条 目 中 。 


下 面 来 看 一 个 例子 。 假 设 有 如 下 表 : 


CREATE TABLE testhash ( 
fname VARCHAR(50) NOT NULL, 
lname VARCHAR(50) NOT NULL, 
KEY USING HASH(fname) 

) ENGINE=MEMORY ; 


注 4 : 关于 哈 希 表 请 参考 相关 计算 机 科学 方面 的 书籍。 
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表 中 包含 如 下 数据 : 


mysql> SELECT * FROM testhash; 
+------- -+----------- + 
| fname | lname | 
+-------- +----------- + 
| Arjen | Lentz | 
| Baron | Schwartz | 
| Peter | Zaitsev | 
| Vadim | Tkachenko | 
+-------- +----------- + 


假设 索引 使 用 假想 的 哈 希 函数 f() ， 它 返回 下 面 的 值 〈 都 是 示例 数据 ， 非 真实 数据 ) : 
f('Arjen' )= 2323 
f('Baron')= 7437 
f('Peter')= 8784 
F('Vadim')= 2458 
则 哈 希 索引 的 数据 结构 如 下 : 


#8 (Slot) 值 (Value) 


2323 指向 第 1 行 的 指针 
2458 指向 第 4 行 的 指针 
7437 指向 第 2 行 的 指针 

BIBT eS EE 


注意 每 个 槽 的 编号 是 顺序 的 ， 但 是 数据 行 不 是 。 现 在 ， 来 看 如 下 查询 : 
mysql> SELECT lname FROM testhash WHERE fname= Peter ; 


MySQL 先 计 算 'Peter' 的 哈 希 值 ， 并 使 用 该 值 寻找 对 应 的 记录 指针 。 因 为 f('Peter')= 
”8784， 所 以 MySQL 在 索引 中 查找 8784， 可 以 找到 指向 第 3 行 的 指针 ， 最 后 一 步 是 比较 
第 三 行 的 值 是 否 为 'Peter' ， 以 确保 就 是 要 查找 的 行 。 


因为 索引 自身 只 需 存储 对 应 的 哈 希 值 ， 所 以 索引 的 结构 十 分 紧凑 ， 这 也 让 哈 希 索引 查找 
的 速度 非常 快 。 然 而 ， 哈 项 索引 也 有 它 的 限制 : 


。 哈 希 索引 只 包含 哈 希 值 和 行 指针 ， 而 不 存储 字段 值 ， 所 以 不 能 使 用 索引 中 的 值 来 避 
免 读 取 行 。 不 过 ， 访 问 内 存 中 的 行 的 速度 很 快 ， 所 以 大 部 分 情况 下 这 一 点 对 性 能 的 
影响 并 不 明显 。 

。 哈 希 索引 数据 并 不 是 按照 索引 值 顺序 存储 的 ， 所 以 也 就 无 法 用 于 排序 。 

。 哈 希 索引 也 不 支持 部 分 索引 列 匹配 查找 ， 因 为 哈 希 索引 始终 是 使 用 索引 列 的 全 部 内 
容 来 计算 哈 希 值 的 。 例 如 , 在 数据 列 (A,B) 上 建立 哈 希 索引 , 如 采 查 询 只 有 数据 列 A, 
则 无 法 使 用 该 索引 。 
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e 了 哈 希 索引 只 支持 等 值 比较 查询 , 包括 =, IN(), <=> (注意 < 和 <=> 是 不 同 的 操作 )。 
也 不 支持 任何 范围 查询 ， 例 如 WHERE price > 100, | 

e 访问 哈 希 索引 的 数据 非常 快 ， 除 非 有 很 多 哈 希 冲突 (不同 的 索引 列 值 却 有 相同 的 哈 
希 值 )。 当 出 现 哈 希 冲 突 的 时 候 ， SE AA tet oe 逐 行进 行 
比较 ， 直 到 找到 所 有 符合 条 件 的 行 

© 如果 哈 希 冲突 很 多 的 话 ， 一 些 索 引 维护 操作 的 代价 也 会 很 高 。 Filan, WIRES ve 
择 性 很 低 ( 哈 希 冲 突 很 多 ) 的 列 上 建立 哈 希 索引 ， 那 么 当 从 表 中 删除 一 行 时 ， 存 储 
引 获 需要 遍历 对 应 哈 希 值 的 链表 中 的 每 一 行 ， 找 到 并 删除 对 应 行 的 引用 ， 冲 突 越 多 ， 
代价 越 大 。 


因为 这 些 限制 ， 哈 希 索 引 只 适用 于 某 些 特 定 的 场合 。 而 一 旦 适合 哈 希 索引 ， 则 它 带 来 的 
性 能 提升 将 非常 显著 。 举 个 例子 ， 在 数据 仓库 应 用 中 有 一 种 经 典 的 “ 星 型 ”schema，, 需 
要 关联 很 多 查找 表 ， 哈 希 索 引 就 非常 适合 查找 表 的 需求 。 


除了 Memory 引擎 外 ，NDB 集群 引擎 也 支持 唯一 哈 希 索引 ， 且 在 NDB 集群 引擎 中 作用 
非常 特殊 ， 但 这 不 属于 本 书 的 范围 。 


InnoDB 引擎 有 一 个 特殊 的 功能 叫做 “ 自 适应 哈 希 索引 (adaptive hash index)”, 4 
InnoDB 注意 到 某 些 索引 值 被 使 用 得 非常 频繁 时 ， 它 会 在 内 存 中 基于 B-Tree 索引 之 上 再 
创建 一 个 哈 希 索 引 ， 这 样 就 让 B-Tree 索引 也 具有 哈 希 索引 的 一 些 优点 ， 比 如 快速 的 哈 希 
查找 。 这 是 一 个 完全 自动 的 、 内 部 的 行为 ， 用 户 无 法 控制 或 者 配置 ， 不 过 如 果 有 必要 ， 
完全 可 以 关闭 该 功能 。 

创建 自 定义 哈 希 索 引 。 如 果 存 储 引 擎 不 支持 哈 希 索引 ， 则 可 以 模拟 像 InnoDB 一 样 创建 
哈 希 索引 ， 这 可 以 享受 一 些 哈 希 索 引 的 便利 ， 例 如 只 需要 很 小 的 索引 就 可 以 为 超 长 的 刍 
创建 索引 。 

思路 很 简单 : 在 B-Tree 基础 上 创建 一 个 伪 哈 希 索 引 。 这 和 真正 的 哈 希 索引 不 是 一 回 事 ， 


因为 还 是 使 用 B-Tree 进行 查找 ， 但 是 它 使 用 哈 希 值 而 不 是 键 本 身 进行 索引 查找 。 你 需要 
做 的 就 是 在 查询 的 WHERE 子 句 中 手动 指定 使 用 哈 希 函数 。 


下 面 是 一 个 实例 ， 例 如 需要 存储 大 量 的 URL， 并 需要 根据 URL 进行 搜索 查找 。 如 果 使 
用 B-Tree 来 存储 URL, 存储 的 内 容 就 会 很 大 ， 因 为 URL 本 身 都 很 长 。 正 常情 况 下 会 有 
如 下 查询 : | 


mysql> SELECT id FROM url WHERE url="http://www.mysql.com"; 


若 删除 原来 URL 列 上 的 索引 ， 而 新 增 一 个 被 索引 的 urL_crc 列 ， 使 用 CRC32 做 哈 希 ， 就 
可 以 使 用 下 面 的 方式 查询 : 
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mysql> SELECT id FROM url WHERE url="http://www.mysql.com" 
-> AND url_crc=CRC32("http://www.mysql.com"); 


这 样 做 的 性 能 会 非常 高 ， 因 为 MySQL 优化 器 会 使 用 这 个 选择 性 很 高 而 体积 很 小 的 基于 
urt_crc 列 的 索引 来 完成 查找 〈 在 上 面 的 案例 中 ， 索 引 值 为 1560514994)。 即 使 有 多 个 
记录 有 相同 的 索引 值 ， 查 找 仍然 很 快 ， 只 需要 根据 哈 希 值 做 快速 的 整数 比较 就 能 找到 索 
引 条 目 ， 然 后 一 一 比较 返回 对 应 的 行 。 另 外 一 种 方式 就 是 对 完整 的 URL 字符 串 做 索引 ， 
那样 会 非常 慢 。 


这 样 实现 的 缺陷 是 需要 维护 哈 希 值 。 可 以 手动 维护 ， 也 可 以 使 用 触发 器 实现 。 下 面 的 案 
例 演 示 了 触发 器 如 何在 插入 和 更 新 时 维护 url_crc 列 。 首 先 创建 如 下 表 : 


CREATE TABLE pseudohash ( 
id int unsigned NOT NULL auto_increment, 
url varchar(255) NOT NULL, 
url_crc int unsigned NOT NULL DEFAULT O, 
PRIMARY KEY(id) 

) 


后 创建 触发 器 。 先 临时 修改 一 下 语句 分 隔 符 ， 这 样 就 可 以 在 触发 器 定义 中 使 用 分 号 : 
DELIMITER // 


CREATE TRIGGER pseudohash crc ins BEFORE INSERT ON pseudohash FOR EACH ROW BEGIN 
SET NEW.url_crc=crc32(NEW.url); 

END; 

// 


CREATE TRIGGER pseudohash_crc_upd BEFORE UPDATE ON Pseudonash FOR EACH ROW BEGIN 
SET NEW.url_crc=crc32(NEW.url); 

END; 

// 


DELIMITER ; 
剩 下 的 工作 就 是 验证 一 下 触发 器 如 何 维护 哈 希 索 引 : 


mysql> INSERT INTO pseudohash (url) VALUES (‘http://www.mysql.com'); 
mysql> SELECT * FROM pseudohash; 

+----+---------------------- +------------ + 

| id | url | url crc | 


weal UPDATE pseudohash SET pre http: Thaw. mysql.com/' WHERE id=1; 
mysql> SELECT * FROM pseudohash; 


+----+---------------------- +------------ 十 
| id | url | url crc | 
+----+---------------------- +------------ + 
| 1 | http://www.mysql.com/ | 1558250469 | 
+----+---------------------- +------------ 十 
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如 果 采 用 这 种 方式 ， 记 住 不 要 使 用 SHAL() 和 MD5() 作为 哈 希 函数 。 因 为 这 两 个 函数 计算 
出 来 的 哈 希 值 是 非常 长 的 字符 串 ， 会 浪费 大 量 空 间 ， 比 较 时 也 会 更 慢 。SHA1() 和 MD5() 
是 强加 密 函 数 ， 设 计 目 标 是 最 大 限度 消除 冲突 ， 但 这 里 并 不 需要 这 样 高 的 要 求 。 人 简单 哈 
希 函数 的 冲突 在 一 个 可 以 接受 的 范围 ， 同 时 又 能 够 提供 更 好 的 性 能 。 


如 果 数据 表 非 常 大 ，CRC32 ( ) 会 出 现 大 量 的 哈 希 冲突 ， 则 可 以 考虑 自己 实现 一 个 简单 的 
64 位 哈 希 函 数 。 这 个 自 定义 函数 要 返回 整数 ， 而 不 是 字符 串 。 一 个 简单 的 办 法 可 以 使 用 
MD5 ( ) 函数 返回 值 的 一 部 分 来 作为 自 定义 哈 希 函数 。 这 可 能 比 自己 写 一 个 哈 希 算法 的 性 
能 要 差 (参考 第 7 章 ) ， 不 过 这 样 实 现 最 简单 : 


处 理 险 希 冲突 。 当 使 用 哈 希 索引 进行 查询 的 时 候 ， 必 须 在 WHERE 子 句 中 包含 常量 值 ; 


. mysql> SELECT id FROM url WHERE url crc=CRC32("http://www.mysql.com") 
-> AND url="http://www.mysql.com"; 


一 旦 出 现 哈 希 冲突 ， 另 一 个 字符 串 的 哈 希 值 也 恰好 是 1560514994， 则 下 面 的 查询 是 无 法 
正确 工作 的 。 

mysql> SELECT id FROM url WHERE url_crc=CRC32("http://www.mysql.com"); 
HAMR “EAR” 5, WSLS A hoe AE ER EE ERRER S. 
CRC32() 返回 的 是 32 位 的 整数 ， 当 索引 有 93 000 条 记录 时 出 现 冲 突 的 概率 是 1%。 例 如 


我 们 将 /usr/share/dict/words 中 的 词 导 入 数据 表 并 进行 CRC32() 计算 ,最 后 会 有 98 569 行 。 
这 就 已 经 出 现 一 次 哈 希 冲突 了 ， 冲 突 让 下 面 的 查询 返回 了 多 条 记录 : 


mysql> SELECT word, crc FROM words WHERE crc = CRC32('gnu'); 


+--------- +------------ + 
| word | crc | 
+--------- +------------ + 
| codding | 1774765869 | 
| gnu | 1774765869 | 
+--------- +------------ + 


注 5: 参考 http://en.wikipedia.org/wiki/Birthday_problen, ——i®# iz 
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正确 的 写法 应 该 如 下 : 


mysql> SELECT word, crc FROM words WHERE crc = CRC32('gnu')AND word = ‘gnu'; 
+ 


$------ $------------ 
| word | crc | 
+------ +------------ + 
| gnu | 1774765869 | 
+------ +------------ + 


要 避免 冲突 问题 ， 必 须 在 WHERE 条 件 中 带 入 哈 希 值 和 对 应 列 值 。 如 果 不 是 想 查询 具体 
值 ， 例 如 只 是 统计 记录 数 〈 不 精确 的 ) ， 则 可 以 不 带 入 列 值 ， 直 接 使 用 CRC32() 的 哈 希 值 
查询 即 可 。 还 可 以 使 用 如 FNV64() 函数 作为 哈 希 国 数 ， 这 是 移植 自 Percona Server AYE 
数 ， 可 以 以 插件 的 方式 在 任何 MySQL 版 本 中 使 用 ， 哈 希 值 为 64 位 ， 速 度 快 ， 且 冲突 比 
CRC32() 要 少 很 多 。 


空间 数据 索引 (R-Tree) 

MyISAM 表 支 持 空间 索引 ， 可 以 用 作 地 理 数据 存储 。 和 B-Tree 索引 不 同 ， 这 类 索引 无 
须 前 级 查询 。 空 间 索 引 会 从 所 有 维度 来 索引 数据 。 查 询 时 ， 可 以 有 效 地 使 用 任意 维度 来 
组 合 查 询 。 必 须 使 用 MySQL 的 GIS 相关 函数 如 MBRCONTAINS ( ) 等 来 维护 数据 。MySQL 
的 GIS 支持 并 不 完善 ， 所 以 大 部 分 人 都 不 会 使 用 这 个 特性 。 开 源 关 系数 据 库 系统 中 对 
GIS 的 解决 方案 做 得 比较 好 的 是 PostgreSQL 的 PostGIS。 


全 文 索引 

全 文 索引 是 一 种 特殊 类 型 的 索引 ， 它 查找 的 是 文本 中 的 关键 词 ， 而 不 是 直接 比较 索引 中 
的 值 。 全 文 搜索 和 其 他 几 类 索引 的 匹配 方式 完全 不 一 样 。 它 有 许多 需要 注意 的 细节 ， 如 
停 用 词 、 词 干 和 复数 、 布 尔 搜 索 等 。 全 文 索 引 更 类 似 于 搜索 引擎 做 的 事情 ， 而 不 是 简单 
的 WHERE 条 件 匹 配 。 


在 相同 的 列 上 同时 创建 全 文 索 引 和 基于 值 的 B-Tree 索引 不 会 有 冲突 ， 全 文 索 引 适 用 于 
MATCH AGAINST 操作 ， 而 不 是 普通 的 WHERE 条 件 操作 。 


我 们 将 在 第 7 章 讨论 更 多 的 全 文 索 引 的 细 市 。 


其 他 索引 类 别 

还 有 很 多 第 三 方 的 存储 引擎 使 用 不 同类 型 的 数据 结构 来 存储 索引 。 例 如 TokuDB 使 用 分 
形 树 索 引 (fractal tree index) ， 这 是 一 类 较 新 开发 的 数据 结构 ， 既 有 B-Tree 的 很 多 优点 ， 
也 避免 了 B-Tree 的 一 些 缺 点 。 如 果 通 读 完 本 章 ， 可 以 看 到 很 多 关于 InnoDB 的 主题 ， 包 
ERR, BERS, SBM, eX InnoDB 的 讨论 也 都 适用 于 TokuDB。 
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ScaleDB 使 用 Patricia tries 〈 这 个 词 不 是 拼写 错误 ) ， 其 他 一 些 存储 引擎 技术 如 InfiniDB 
和 Infobright 则 使 用 了 一 些 特殊 的 数据 结构 来 优化 某 些 特殊 的 查询 。 


5.2 索引 的 优点 


索引 可 以 让 服务 器 快速 地 定位 到 表 的 指定 位 置 。 但 是 这 并 不 是 索引 的 唯一 作用 ， 到 目前 
为 止 可 以 看 到 ， 根 据 创建 索引 的 数据 结构 不 同 ， 索 引 也 有 一 些 其 他 的 附加 作用 。 


最 常见 的 B-Tree 索引 ， 按 照 顺 序 存储 数据 ， 所 以 MySQL 可 以 用 来 做 ORDER BY 和 GROUP 
BY 操作。 因为 数据 是 有 序 的 ， 所 以 B-Tree 也 就 会 将 相关 的 列 值 都 存储 在 一 起 。 最 后 ， 
因为 索引 中 存储 了 实际 的 列 值 ， 所 以 某 些 查询 只 使 用 索引 就 能 够 完成 全 部 查询 。 据 此 特 
性 ， 总 结 下 来 索引 有 如 下 三 个 优点 : 


1. 索引 大 大 减少 了 服务 器 需要 扫描 的 数据 量 。 
2. 索引 可 以 帮助 服务 器 避免 排序 和 临时 表 。 
3. 索引 可 以 将 随机 VO 变 为 顺序 IO 。 


“索引 ”这 个 主题 完全 值得 单独 写 一 本 书 ， 如 果 想 深入 理解 这 部 分 内 容 ， 强 烈 建议 阅 
读 由 Tapio Lahdenmaki 和 Mike Leach 编写 的 Relational Database Index Design and the 
Optimizers (Wiley 出 版 社 ) 一 书 ， 该 书 详 细 介绍 了 如 何 计算 索引 的 成 本 和 作用 、 如 何 评 
估 查 询 速度 、 如 何 分 析 索 引 维护 的 代价 和 其 带 来 的 好 处 等 。 


Lahdenmaki 和 Leach 在 书 中 介绍 了 如 何 评价 一 个 索引 是 否 适合 某 个 查询 的 “三 星系 统 - 
(three-star system) : 索引 将 相关 的 记录 放 到 一 起 则 获得 一 星 ; 如 果 索 引 中 的 数据 顺序 和 
查找 中 的 排列 顺序 一 致 则 获得 二 星 ; 如 果 索 引 中 的 列 包含 了 查询 中 需要 的 全 部 列 则 获得 
三 星 。 后 面 我 们 将 会 介绍 这 些 原则 。 


索引 是 最 好 的 解决 方案 吗 ? 


.索引 并 不 总 是 最 好 的 工具 。 总 的 来 说 ， 只 有 当 索 引 帮 助 存储 引擎 快速 查找 到 记录 带 
来 的 好 处 大 于 其 带 来 的 额外 工作 时 ， 索 引 才 是 有 效 的。 对 于 非常 小 的 表 ， 大 部 分 情 


况 下 简单 的 全 表 扫 描 更 高 效 。 对 于 中 到 大 型 的 表 ， 索 引 就 非常 有 效 。 但 对 于 特大 型 
的 表 ， 建 立 和 使 用 索引 的 代价 将 随 之 增长 。 这 种 情况 下 ， 则 需要 一 种 技术 可 以 直接 
区 分 出 查询 需要 的 一 组 数据 ， 而 不 是 一 条 记录 一 条 记录 地 匹配 。 例 如 可 以 使 用 分 区 
技术 ， 请 参考 第 7 章 。 
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如 果 表 的 数量 特别 多 ,可 以 建立 一 个 元 数据 信息 表 , 用 来 查询 需要 用 到 的 某 些 特性 。 
例如 执行 那些 需要 聚合 多 个 应 用 分 布 在 多 个 表 的 数据 的 查询 ， 则 需要 记录 “哪个 用 
户 的 信息 存储 在 哪个 表 中 ”的 元 数据 ， 这 样 在 查询 时 就 可 以 直接 忽略 那些 不 包含 指 


定 用 户 信息 的 表 。 对 于 大 型 系统 ， 这 是 一 个 常用 的 技巧 。 事 实 上 ，Infobright 就 是 
使 用 类 似 的 实现 。 对 于 TB 级 别 的 数据 ， 定 位 单条 记录 的 意义 不 大 ， 所 以 经 常会 使 
用 块 级 别 元 数据 技术 来 替代 索引 。 





5.3 高 性 能 的 索引 策略 


正确 地 创建 和 使 用 索引 是 实现 高 性 能 查询 的 基础 。 前 面 已 经 介绍 了 各 种 类 型 的 索引 及 其 
对 应 的 优 缺 点 。 现 在 我 们 一 起 来 看 看 如 何 真 正 地 发 挥 这 些 索 引 的 优势 。 


高 效 地 选择 和 使 用 索引 有 很 多 种 方式 ， 其 中 有 些 是 针对 特殊 案例 的 优化 方法 ， 有 些 则 是 
针对 特定 行为 的 优化 。 使 用 哪个 索引 ， 以 及 如 何 评估 选择 不 同 索 引 的 性 能 影响 的 技巧 ， 
则 需要 持续 不 断 地 学 习 。 接 下 来 的 几 个 小 节 将 帮助 读者 理解 如 何 高 效 地 使 用 索引 。 


5.3.1 独立 的 列 

我 们 通常 会 看 到 一 些 查询 不 当地 使 用 索引 ， 或 者 使 得 MySQL 无 法 使 用 已 有 的 索引 。 如 
果 查 询 中 的 列 不 是 独立 的 ， 则 MySQL 就 不 会 使 用 索引 。 “独立 的 列 ” 是 指 索 引 列 不 能 是 
表达 式 的 一 部 分 ， 也 不 能 是 函数 的 参数 。 


例如 ， 下 面 这 个 查询 无 法 使 用 actor_id 列 的 索引 : 
mysql> SELECT actor_id FROM sakila.actor WHERE actor id + 1 = 5; 


凭 肉 眼 很 容易 看 出 WHERE 中 的 表达 式 其实 等 价 于 actor id = 4， 但 是 MySQL 无 法 自动 
解析 这 个 方程 式 。 这 完全 是 用 户 行为 。 我 们 应 该 养 成 简化 WHERE 条 件 的 习惯 ， 始 终 将 索 
引 列 单独 放 在 比较 符号 的 一 侧 。 | 


下 面 是 另 一 个 常见 的 错误 : 


mysql> SELECT ... WHERE TO DAYS(CURRENT DATE) - TO_DAYS(date col) <= 10; 


5.3.2 前 级 索引 和 索引 选择 性 
有 时候 需要 索引 很 长 的 字符 列 ， 这 会 让 索引 变 得 大 且慢 。 一 个 策略 是 前 面 提 到 过 的 模拟 
哈 希 索引 。 但 有 时候 这 样 做 还 不 够 ， 还 可 以 做 些 什 么 呢 ? 
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通 和 可 以 索引 开始 的 部 分 字符 ， 这 样 可 以 大 大 节约 索引 空间 ， 从 而 提高 索引 效率 。 但 
这 样 也 会 降低 索引 的 选择 性 。 索 引 的 选择 性 是 指 ， 不 重复 的 索引 值 (也 称 为 基数 ， 
cardinality) 和 数据 表 的 记录 总 数 (#7) 的 比值 ， 范 围 从 IAAT 到 1 之 间 。 索 引 的 选择 性 
越 高 则 查询 效率 越 高 ， 因 为 选择 性 高 的 索引 可 以 让 MySQL 在 查找 时 过 滤 掉 更 多 的 行 。 
唯一 索引 的 选择 性 是 1， 这 是 最 好 的 索引 选择 性 ， 性 能 也 是 最 好 的 。 


一 般 情 况 下 某 个 列 前 缀 的 选择 性 也 是 足够 高 的 ， 足 以 满足 查询 性 能 。 对 于 BLOB, TEXT 或 
者 很 长 的 VARCHAR 类 型 的 列 ， 必 须 使 用 前 级 索引 ， 因 为 MySQL 不 允许 索引 这 些 列 的 完 
整 长 度 。 


诀窍 在 于 要 选择 足够 长 的 前 组 以 保证 较 高 的 选择 性 ， 同 时 又 不 能 太 长 〈 以 便 节 约 空间 )。 
前 缀 应 该 足够 长 ， 以 使 得 前 级 索引 的 选择 性 接近 于 索引 整个 列 。 换 句 话说 ， 前 缀 的 “ 基 
数 ” 应 该 接近 于 完整 列 的 “基数 。 


为 了 决定 前 缀 的 合适 长 度 ， 需 要 找到 最 常见 的 值 的 列表 ， 然 后 和 最 常见 的 前 缀 列表 进行 
比较 。 在 示例 数据 库 Sakila 中 并 没有 合适 的 例子 ,所 以 我 们 从 表 city 中 生成 一 个 示例 表 ， 
这 样 就 有 足够 的 数据 进行 演示 ; 


CREATE TABLE sakila.city demo(city VARCHAR(50) NOT NULL); 
INSERT INTO sakila.city demo(city) SELECT’city FROM sakila.city; 
-- Repeat the next statement five times: 
INSERT INTO sakila.city demo(city) SELECT city FROM sakila.city demo; 
-- Now randomize the distribution (inefficiently but conveniently): 
UPDATE sakila.city_demo 

SET city = (SELECT city FROM sakila.city ORDER BY RAND() LIMIT 1); 


现在 我 们 有 了 示例 数据 集 。 数 据 分 布 当 然 不 是 真实 的 分 布 ; 因为 我 们 使 用 了 RAND(), AF 
以 你 的 结果 会 与 此 不 同 ， 但 对 这 个 练习 来 说 这 并 不 重要 。 首 先 ， 我 们 找到 最 常见 的 城 
市 列表 : 


mysql> SELECT COUNT(*) AS cnt, city 
-> FROM sakila.city demo GROUP BY city ORDER BY cnt DESC LIMIT 10; 

+----- +---------------- + 
| cnt | city | 
+----- +---------------- + 

65 | London 

49 | Hiroshima 

48 | Teboksary 


| | 
| | 
| | 
| 48 | Pak Kret | 
| 48 | Yaound | 
| 47 | Tel Aviv-Jaffa | 
| 47 | Shimoga | 
| 45 | Cabuyao | 
| 45 | Callao | 
| 45 | Bislig | 
+----- +---------------- + 
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注意 到 ， 上 面 每 个 值 都 出 现 了 45 ~ 65 次 。 现 在 查找 到 最 频繁 出 现 的 城市 前 级 ， 先 从 3 
个 前 级 字母 开始 : 


mysql> SELECT COUNT(*) AS cnt, LEFT(city, 3) AS pref 
-> FROM sakila.city demo GROUP BY pref ORDER BY cnt DESC LIMIT 10; 


+----- +------ + 
| cnt | pref | 
+----- +------ 十 
| 483 | San | 
| 195 | Cha | 
| 177 | Tan | 
| 167 | Sou | 
| 163 | al- | 
| 163 | Sal | 
| 146 | Shi | 
| 136 | Hal | 
| 130 | Val | 
| 129 | Bat | 
+----- +------ + 


45-7 il BSB LL EA RT HAS, AME RRR aS. Rik 
们 增加 前 缀 长 度 ， 直 到 这 个 前 绥 的 选择 性 接近 完整 列 的 选择 性 。 经 过 实验 后 发 现 前 组 长 
度 为 7 时 比较 合适 


mysql> SELECT COUNT(*) AS cnt, LEFT(city, 7) AS pref 
-> FROM 2o city_demo GROUP BY pref ORDER BY cnt DESC LIMIT 10; 


+----- +--------- 
| cnt | pref | 
+-----+--------- + 
| 70 i Santiag | 
| 68 | San Fel | 
| 65 | London | 
| 61 | Valle d | 
| 49 | Hiroshi | 
| 48 | Teboksa | 
| 48 | Pak Kre | 
| 48 | Yaound | 
| 47 | Tel Avi | 
| 47 | Shimoga | 
+----- +--------- 十 


计算 合适 的 前 缀 长 度 的 另外 一 个 办 法 就 是 计算 完整 列 的 选择 性 ， 并 使 前 缀 的 选择 性 接近 
于 完整 列 的 选择 性 。 下 面 显示 如 何 计 算 完 整 列 的 选择 性 : 


WY SELECT COUNT(DISTINCT city)/COUNT(*) FROM sakila.city demo; 
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通常 来 说 (尽管 也 有 例外 情况 )， 这 个 例子 中 如 果 前 缀 的 选择 性 能 够 接近 0.031, HAL 
就 可 用 了 。 可 以 在 一 个 查询 中 针对 不 同 前 缀 长 度 进行 计算 ， 这 对 于 大 表 非 常 有 用 。 下 面 
给 出 了 如 何在 同一 个 查询 中 计算 不 同 前 级 长 度 的 选择 性 : 


mysql> SELECT COUNT(DISTINCT LEFT(city, 3))/COUNT(*) AS sel3, 
->  COUNT(DISTINCT LEFT(city, 4))/COUNT(*) AS sel4, 
->  COUNT(DISTINCT LEFT(city, 5))/COUNT(*) AS sels, 
->  COUNT(DISTINCT LEFT(city, 6))/COUNT(*) AS sel6, 
->  COUNT(DISTINCT LEFT(city, 7))/COUNT(*) AS sel7 
-> FROM sakila.city demo; 
+ 


+--------+-------- +-------- +-------- +-------- + 
| sel3 | sel4 | sels: | sel6 | sel7 | 
+-------- +-------- +-------- +-------- +-------- + 
| 0.0239 | 0.0293 | 0.0305 | 0.0309 | 0.0310 | 
+-------- +-------- +-------- +-------- +-------- + 


查询 显示 当前 缀 长 度 到 达 7 的 时 候 ， 再 增加 前 缓 长度， 选择 性 提升 的 幅度 已 经 很 小 了 。 


只 看 平均 选择 性 是 不 够 的 ， 也 有 例外 的 情况 ， 需 要 考虑 最 坏 情 况 下 的 选择 性 。 平 均 选 择 
性 会 让 你 认为 前 级 长 度 为 4 或 者 5 的 索引 已 经 足够 了 ， 但 如 果 数 据 分 布 很 不 均匀 ， 可 能 


就 会 有 陷阱 。 如 果 观 察 前 组 为 4 的 最 常 出 现 城市 的 次 数 ， 可 以 看 到 明显 不 均匀 : 


mysql> SELECT COUNT(*) AS cnt, LEFT(city, 4) AS pref 
-> FROM sakila.city_demo GROUP BY pref ORDER BY cnt DESC LIMIT 5; 
+----- +------ + 
| cnt | pref | 
+----- +------ + 
| 205 | San | 
| 200 | Sant | 
| 135 | Sout | 
| 104 | Chan | 
| 91 | Toul | 
+----- +------ + 


如 果 前 缀 是 4 个 字 节 ， 则 最 常 出 现 的 前 组 的 出 现 次 数 比 最 常 出 现 的 城市 的 出 现 次 数 要 大 
很 多 。 即 这 些 值 的 选择 性 比 平均 选择 性 要 低 。 如 果 有 比 这 个 随机 生成 的 示例 更 真实 的 数 
据 ， 就 更 有 可 能 看 到 这 种 现象 。 例 如 在 真实 的 城市 名 上 建 一 个 长 度 为 4 的 前 级 索引 ， 对 
于 以 “San” 和 “New” 开 头 的 城市 的 选择 性 就 会 非常 糟糕 ， 因 为 很 多 城市 都 以 这 两 个 词 
开头 。 


在 上 面 的 示例 中 ， 已 经 找到 了 合适 的 前 缀 长度， 下面 演示 一 下 如 何 创建 前 缀 索引 : 
mysql> ALTER TABLE sakila.city demo ADD KEY (city(7)); 


前 绥 索 引 是 一 种 能 使 索引 更 小 、 更 快 的 有 效 办 法 ， 但 另 一 方面 也 有 其 缺点 : MySQL 无 


”法 使 用 前 组 索引 做 ORDER BY 和 GROUP BY， 也 无 法 使 用 前 级 索 引 做 覆盖 扫描 。 


一 个 常见 的 场景 是 针对 很 长 的 十 六 进 制 唯一 ID 使 用 前 级 索引 。 在 前 面 的 章节 中 已 经 计 
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论 了 很 多 有 效 的 技术 来 存储 这 类 ID 信息 ， 但 如 果 使 用 的 是 打包 过 的 解决 方案 ， 因 而 无 
法 修改 存储 结构 ， 那 该 怎么 办 ? 例如 使 用 vBulletin 或 者 其 他 基于 MySQL 的 应 用 在 存储 
网 站 的 会 话 (SESSION) 时 ， 需 要 在 一 个 很 长 的 十 六 进 制 字符 串 上 创建 索引 。 此 时 如 果 
采用 长 度 为 8 的 前 组 索引 通常 能 显著 地 提升 性 能 ， 并 且 这 种 方法 对 上 层 应 用 完全 透明 。 


, ub). MySQL 原生 并 不 支持 反 向 索引 ， 但 是 可 以 把 字符 串 反 转 后 存储 ， 并 基于 此 建 
%， 立 前 缀 索引 。 可 以 通过 触发 器 来 维护 这 种 索引 。 参考 5.1 节 中 “创建 自 定义 哈 希 索引 ” 
部 分 的 相关 内 容 。 


a a, 

ME 有 时 候 后 缀 索引 (suffix index) 也 有 用 途 〈 例 如 ， 找 到 某 个 域名 的 所 有 电子 邮件 地 
A a 

| ek 


5.3.3 多 列 索引 


很 多 人 对 多 列 索引 的 理解 都 不 够 。 一 个 常见 的 错误 就 是 ， 为 每 个 列 创建 独立 的 索引 ， 或 
者 按照 错误 的 顺序 创建 多 列 索 引 。 


RINSE 5.3.4 节 中 单独 讨论 索引 列 的 顺序 问题 。 先 来 看 第 一 个 问题 ， 为 每 个 列 创建 独 
立 的 索引 ， 从 SHOW CREATE TABLE 中 很 容易 看 到 这 种 情况 : 
CREATE TABLE t ( 
c1 INT, 
c2 INT, 
c3 INT, 
KEY(c1), 
KEY(c2), 
KEY(c3) 
); 
这 种 索引 策略 , 一 般 是 由 于 人 们 听 到 一 些 专家 诸如 “把 WHERE 条 件 里 面 的 列 都 建 上 索引 ” 
这 样 模糊 的 建议 导致 的 。 实 际 上 这 个 建议 是 非常 错误 的 。 这 样 一 来 最 好 的 情况 下 也 只 能 
是 “一 星 ” 索 引 ， 其 性 能 比 起 真正 最 优 的 索引 可 能 差 几 个 数量 级 。 有 时 如 果 无 法 设计 一 
个 “三 星 ” 索 引 ， 那 么 不 如 忽略 掉 WHERE 子 句 ， 和 集中 精力 优化 索引 列 的 顺序 ， 或 者 创建 
一 个 全 覆盖 索引 。 


在 多 个 列 上 建立 独立 的 单列 索引 大 部 分 情况 下 并 不 能 提高 MySQL 的 查询 性 能 。MySQL 
5.0 和 更 新 版 本 引入 了 一 种 叫 “索引 合并 ”(index merge) 的 策略 ， 一 定 程度 上 可 以 使 用 
表 上 的 多 个 单列 索引 来 定位 指定 的 行 。 更 早 版 本 的 MySQL 只 能 使 用 其 中 某 一 个 单列 索 
. 引 ， 然 而 这 种 情况 下 没有 哪 一 个 独立 的 单列 索引 是 非常 有 效 的 。 例 如 ， 表 film actor 在 
字段 film_id 和 actor_id 上 各 有 一 个 单列 索引 。 但 对 于 下 面 这 个 查询 WHERE 条 件 ， 这 两 
个 单列 索引 都 不 是 好 的 选择 : 


mysql> SELECT film_id, actor_id FROM sakila.film_actor 
-> WHERE actor_id = 1 OR film_id = 1; 
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EERI MySQL 版 本 中 ，MySQL 对 这 个 查询 会 使 用 全 表 扫 描 。 除 非 改 写成 如 下 的 两 个 查 
询 UNION 的 方式 : 


mysql> SELECT film id, actor_id FROM sakila.film_actor WHERE actor id = 1 
-> UNION ALL 
-> SELECT film_id, actor_id FROM sakila.film_actor WHERE film_id = 1 
-> AND actor_id <> 1; 


但 在 MySQL 5.0 和 更 新 的 版 本 中 ， 查 询 能 够 同时 使 用 这 两 个 单列 索引 进行 扫描 ， 并 将 结 
果 进 行 合 并 。 这 种 算法 有 三 个 变种 ;0R 条 件 的 联合 (union),AND 条 件 的 相交 (intersection , 
组 合 前 两 种 情况 的 联合 及 相交 。 下 面 的 查询 就 是 使 用 了 两 个 索引 扫描 的 联合 ， 通 过 
EXPLAIN 中 的 Extra 列 可 以 看 到 这 点 : 


mysql> EXPLAIN SELECT film id, actor id FROM sakila.film actor 
-> WHERE actor_id = 1 OR film id = 1\G 
六 六 六 六 六 六 六 六 六 玉米 闵 玉米 米 六 玉米 米 六 六 六 六 六 米 冰冰 “4 ， 了 OW FEE oek o kkk kkk kkk kkk 
id: 1 
select_type: SIMPLE 
table: film actor 
type: index_merge 
possible_keys: PRIMARY,idx fk film id 
key: PRIMARY, idx_fk_film id 


rows: 29 
Extra: Using union(PRIMARY,idx_fk_film_id); Using where 


MySQL 会 使 用 这 类 技术 优化 复杂 查询 ， 所 以 在 某 些 语 名 的 Ext ra 列 中 还 可 以 看 到 向 套 


操作 。 


索引 合并 策略 有 时 候 是 一 种 优化 的 结果 ， 但 实际 上 更 多 时 候 说 明了 表 上 的 索引 建 得 很 精 
ee 


。 当 出 现 服务 器 对 多 个 索引 做 相交 操作 时 (通常 有 多 个 AND 条 件 ) ， 通 常 意味 着 需要 一 
个 包含 所 有 相关 列 的 多 列 索引 ， 而 不 是 多 个 独立 的 单列 索引 。 

e 当 服 务 器 需要 对 多 个 索引 做 联合 操作 时 (通常 有 多 个 OR 条件)， 通 当 需 要 耗费 大 量 
CPU 和 内 存 资源 在 算法 的 缓存 、 排 序 和 合并 操作 上 。 特 别 是 当 其 中 有 些 索 引 的 选择 
性 不 高 ， 需 要 合并 扫描 返回 的 大 量 数据 的 时 候 。 

。 更 重要 的 是 ， 优 化 器 不 会 把 这 些 计算 到 “查询 成 本 ”(cost) 中 ， 优 化 器 只 关心 随机 
页 面 读 取 。 这 会 使 得 查询 的 成 本 被 “低估 ”, 导致 该 执行 计划 还 不 如 直接 走 全 表 扫 描 。 
这 样 做 不 但 会 消耗 更 多 的 CPU 和 内 存 资源 ， 还 可 能 会 影响 查询 的 并 发 性 ， 但 如 果 是 
单独 运行 这 样 的 查询 则 往往 会 忽略 对 并 发 性 的 影响 。 通 常 来 说 ， 还 不 如 像 在 MySQL 
4.1 或 者 更 早 的 时 代 一 样 ， 将 查询 改写 成 UNION 的 方式 往往 更 好 。 


如 果 在 EXPLAIN 中 看 到 有 索引 合并 ， 应 该 好 好 检查 一 下 查询 各 表 的 结构 ， 看 是 不 是 已 
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经 是 最 优 的 。 也 可 以 通过 参数 optimizer _ switch 来 关闭 索引 合并 功能 。 也 可 以 使 用 
IGNORE INDEX 提示 让 优化 器 忽略 掉 某 些 索引 。 


5.3.4 选择 合适 的 索引 列 顺 序 

我 们 遇 到 的 最 容易 引起 困惑 的 问题 就 是 索引 列 的 顺序 。 正 确 的 顺序 依赖 于 使 用 该 索引 的 
查询 ， 并 且 同 时 需要 考虑 如 何 更 好 地 满足 排序 和 分 组 的 需要 (顺便 说 明 ， 本 节 内 容 适 用 
于 B-Tree 索引 ; 哈 希 或 者 其 他 类 型 的 索引 并 不 会 像 B-Tree 索引 一 样 按 顺 序 存储 数据 ) 。 


在 一 个 多 列 B-Tree 索引 中 ， 索 引 列 的 顺序 意味 着 索引 首先 按照 最 左 列 进行 排序 ， 其 次 是 
第 二 列 ， 等 等 。 所 以 ， 索 引 可 以 按照 升序 或 者 降序 进行 扫描 ， 以 满足 精确 符合 列 顺序 的 
ORDER BY、GROUP BY 和 DISTINCT 等 子 句 的 查询 需求 。 


| 所 以 多 列 索 引 的 列 顺 序 至 关 重 要 。 在 Lahdenmaki FA Leach 的“ 三星 索引 ”系统 中 ， 列 
顺序 也 决定 了 一 个 索引 是 否 能 够 成 为 一 个 真正 的 “三 星 索 引 ”( 关 于 三 星 索 引 可 以 参考 
本 章 前 面 的 5.2 节 )。 在 本 章 的 后 续 部 分 我 们 将 通过 大 量 的 例子 来 说 明 这 一 点 。 


对 于 如 何 选择 索引 的 列 顺序 有 一 个 经 验 法 则 : 将 选择 性 最 高 的 列 放 到 索引 最 前 列 。 这 个 
建议 有 用 吗 ? 在 某 些 场景 可 能 有 帮助 ， 但 通常 不 如 避免 随机 IO 和 排序 那么 重要 ， 考 虑 
问题 需要 更 全 面 (场景 不 同 则 选择 不 同 ,没有 一 个 放 之 四 海 皆 准 的 法 则 。 这 里 只 是 说 明 ， 
这 个 经 验 法 则 可 能 没有 你 想象 的 重要 )。 


当 不 需要 考虑 排序 和 分 组 时 ， 将 选择 性 最 高 的 列 放 在 前 面 通常 是 很 好 的 。 这 时 候 索 引 的 
作用 只 是 用 于 优化 WHERE 条 件 的 查找 。 在 这 种 情况 下 ， 这 样 设 计 的 索引 确实 能 够 最 快 地 
ve OH AAT, HFE WHERE 子 句 中 只 使 用 了 索引 部 分 前 级 列 的 查询 来 说 选择 性 也 更 


高 。 然 而 ， 性 能 不 只 是 依赖 于 所 有 索引 列 的 选择 性 (整体 基数 )， 也 和 查询 条 件 的 具体 


AK, 也 就 是 和 值 的 分 布 有 关 。 这 和 前 面 介绍 的 选择 前 缀 的 长 度 需 要 考虑 的 地 方 一 样 。 
可 能 需要 根据 那些 运行 频率 最 高 的 查询 来 调整 索引 列 的 顺序 ， 让 这 种 情况 下 索引 的 选择 
性 最 高 。 

以 下 面 的 查询 为 例 : 


SELECT * FROM payment WHERE staff id = 2 AND customer id = 584; 


是 应 该 创建 一 个 (staff_id, customer_id) 索引 还 是 应 该 颠倒 一 下 顺序 ? 可 以 跑 一 些 查询 
来 确定 在 这 个 表 中 值 的 分 布 情况 ， 并 确定 哪个 列 的 选择 性 更 高 。 先 用 下 面 的 查询 预测 一 
PE’, BBS WHERE 条 件 的 分 支 对 应 的 数据 基数 有 多 大 : 


注 6: 某 些 优化 极 客 (geek) 将 这 称 之 为 “sarg”, 这 是 “可 搜索 的 参数 (searchable argument) ”的 缩写 。 好 吧 ， 
学 会 了 这 个 词 你 也 是 一 个 极 客 了 。 
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mysql> SELECT SUM(staff_id = 2), SUM(customer_id = 584) FROM payment\G 
RAK kk AAR KARR KAA KKKKKEEK 1 row A Ke 2 oe 2 2 k 2 ok k k ak k k k k k kkk 


SUM(staff_id = 2): 7992 
SUM(customer_id = 584): 30 
根据 前 面 的 经 验 法 则 ， 应 该 将 索引 列 customer id 放 到 前 面 ， 因 为 对 应 条 件 值 的 
customer id 数量 更 小 。 我 们 再 来 看 看 对 于 这 个 customer id 的 条 件 值 ， 对 应 的 staff_ 
id 列 的 选择 性 如 何 : 


mysql> SELECT SUM(staff_id = 2) FROM payment WHERE customer id = 584\G 
HAKKAR AKE ARK KARR k k kkk kkk 1 roy PEES aa aa a a A kk kk kkk KK 


SUM(staff id = 2): 17 


HAT BRE, BIRR RMT EE MAA. BORER LAD 
化 ， 可 能 对 其 他 一 些 条 件 值 的 查询 不 公平 ， 服 务 器 的 整体 性 能 可 能 变 得 更 粮 ， 或 者 其 他 
某 些 查询 的 运行 变 得 不 如 预期 。 


如 果 是 从 诸如 pt-query-digest 这 样 的 工具 的 报告 中 提取 “最 差 ” 查 询 ， 那 么 再 按 上 述 办 
法 选 定 的 索引 顺序 往往 是 非常 高 效 的 。 如 果 没 有 类 似 的 具体 查询 来 运行 ， 那 么 最 好 还 是 
按 经 验 法 则 来 做 ， 因 为 经 验 法 则 考虑 的 是 全 局 基数 和 选择 性 ， 而 不 是 某 个 具体 查询 : 
mysql> SELECT COUNT(DISTINCT staff id)/COUNT(*) AS staff id selectivity, 
> COUNT(DISTINCT customer id)/COUNT(*) AS customer id selectivity, 


> COUNT(*) 


> FROM payment\G 
JESS ESE SEAS GIR. ypy oook kk 


staff id selectivity: 0.0001 
customer id selectivity: 0.0373 
COUNT(*): 16049 


customer_id 的 选择 性 更 高 ， 所 以 答案 是 将 其 作为 索引 列 的 第 一 列 : 
mysql> ALTER TABLE payment ADD KEY(customer id, staff id); 


当 使 用 前 缀 索引 的 时 候 ， 在 某 些 条 件 值 的 基数 比 正常 值 高 的 时 候 ， 问 题 就 来 了 。 例 如 ， 
在 某 些 应 用 程序 中 ， 对 于 没有 登录 的 用 户 ， 都 将 其 用 户 名 记录 为 “guset"， 在 记录 用 户 
行为 的 会 话 (session) 表 和 其 他 记录 用 户 活 动 的 表 中 “guest” 就 成 为 了 一 个 特殊 用 户 
ID。 一 旦 查询 涉及 这 个 用 户 ， 那 么 和 对 于 正常 用 户 的 查询 就 大 不 同 了 ， 因 为 通常 有 很 多 
会 话 都 是 没有 登录 的 。 系 统 账 号 也 会 导致 类 似 的 问题 。 一 个 应 用 通常 都 有 一 个 特殊 的 管 
理 员 账 号 ， 和 普通 账号 不 同 ， 它 并 不 是 一 个 具体 的 用 户 ， 系 统 中 所 有 的 其 他 用 户 都 是 这 
个 用 户 的 好 友 ， 所 以 系统 往往 通过 它 向 网 站 的 所 有 用 户 发 送 状态 通知 和 其 他 消息 。 这 个 
账号 的 巨大 的 好 友 列 表 很 容易 导致 网 站 出 现 服务 器 性 能 问题 。 


这 实际 上 是 一 个 非常 典型 的 问题 。 任 何 的 异常 用 户 ， 不 仅仅 是 那些 用 于 管理 应 用 的 设计 
糟糕 的 账号 会 有 同样 的 问题 ;那些 拥有 大 量 好 友 、 图 片 、 状 态 、 收 藏 的 用 户 ， 也 会 有 前 
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面 提 到 的 系统 账号 同样 的 问题 。 


下 面 是 一 个 我 们 遇 到 过 的 真实 案例 ， 在 一 个 用 户 分 享 购买 商品 和 购买 经 验 的 论坛 上 ， 这 
个 特殊 表 上 的 查询 运行 得 非常 慢 : 
mysql> SELECT COUNT(DISTINCT threadId) AS COUNT VALUE 
-> FROM Message 


-> WHERE (groupId = 10137) AND (userId = 1288826) AND (anonymous = 0) 
-> ORDER BY priority DESC, modifiedDate DESC 


这 个 查询 看 似 没有 建立 合适 的 索引 ， 所 以 客户 咨询 我 们 是 否 可 以 优化 。EXPLAIN 的 结果 
如 下 : 
id: 1 
select type: SIMPLE 
table: Message 
type: ref 
key: ix_groupId userId 
key_len: 18 
ref: const,const 


rows: 1251162 
Extra: Using where 


MySQL 为 这 个 查询 选择 了 索引 (groupId，userId)， 如 果 不 考虑 列 的 基数 ， 这 看 起 来 是 
一 个 非常 合理 的 选择 。 但 如 果 考 虑 一 下 user ID 和 group ID 条 件 匹 配 的 行 数 ， 可 能 就 会 
有 不 同 的 想法 了 : 

mysql> SELECT COUNT(*), SUM(groupId = 10137), 


-> SUM(userId = 1288826), SUM(anonymous = 0) 


-> FROM Message\G 
MEA AR AR ER AR ACK AK ARR ARR 1. roy PEE ao a k a kk kkk KE KK KK 


count(*): 4142217 
sum(groupId = 10137): 4092654 
sum(userId = 1288826): 1288496 
sum(anonymous = 0): 4141934 
从 上 面 的 结果 来 看 符合 组 (groupId) 条 件 几 乎 满足 表 中 的 所 有 行 ， 符 合用 户 (userId) 
条 件 的 有 130 万 条 记录 一 一 也 就 是 说 索引 基本 上 没什么 用 。 因 为 这 些 数据 是 从 其 他 应 用 
中 迁移 过 来 的 ， 迁 移 的 时 候 把 所 有 的 消息 都 赋予 了 管理 员 组 的 用 户 。 这 个 案例 的 解决 办 
法 是 修改 应 用 程序 代码 ， 区 分 这 类 特殊 用 户 和 组 ， 禁 止 针 对 这 类 用 户 和 组 执行 这 个 查询 。 


从 这 个 小 案例 可 以 看 到 经 验 法 则 和 推论 在 多 数 情况 是 有 用 的 ， 但 要 注意 不 要 假设 平均 情 
况 下 的 性 能 也 能 代表 特殊 情况 下 的 性 能 ， 特 殊 情 况 可 能 会 摧毁 整个 应 用 的 性 能 。 


最 后 ， 尽 管 关于 选择 性 和 基数 的 经 验 法 则 值得 去 研究 和 分 析 ， 但 一 定 要 记 住 别 忘 了 
WHERE 子 句 中 的 排序 、 分 组 和 范围 条 件 等 其 他 因素 ， 这 些 因素 可 能 对 查询 的 性 能 造成 非 
常 大 的 影响 。 
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5.3.5 BRR 


ERDE 并 不 是 一 种 单独 的 索引 类 型 ， 而 是 一 种 数据 存储 方式 。 具 体 的 细节 依赖 于 其 
实现 方式 ， 但 InnoDB 的 聚 徐 索引 实际 上 在 同一 个 结构 中 保存 了 B-Tree 索引 和 数据 行 。 


HRA RRRS, 它 的 数据 行 实际 上 存放 在 索引 的 叶子 页 (leaf page) P. RIB “RR” 
表示 数据 行 和 相 邻 的 键 值 紧凑 地 存储 在 一 起 “。 因 为 无 法 同时 把 数据 行 存放 在 两 个 不 同 
的 地 方 ,所 以 一 个 表 只 能 有 一 个 聚 徐 索 引 〈 不 过 ,覆盖 索引 可 以 模拟 多 个 聚 徐 索引 的 情况 ， 
本 章 后 面 将 详细 介绍 ) 。 


因为 是 存储 引擎 负责 实现 索引 ， 因 此 不 是 所 有 的 存储 引擎 都 支持 聚 灸 索 ?[。 本 闻 我 们 主 
要 关注 InnoDB， 但 是 这 里 讨论 的 原理 对 于 任何 支持 聚焦 索引 的 存储 引擎 都 是 适用 的 。 


图 5-3 展示 了 聚 复 索引 中 的 记录 是 如 何 存放 的 。 注 意 到 ， 叶 子 页 包含 了 行 的 全 部 数据 ， 
但 是 节点 页 只 包含 了 索引 列 。 在 这 个 案例 中 ， 索 引 列 包含 的 是 整数 值 。 





图 5-3: 聚 艇 索引 的 数据 分 布 


注 7: Oracle 用户 可 能 更 熟悉 索引 组 织 表 (index- organized table) 的 说 法 ， 实 际 上 是 一 样 的 意思 。 
注 8: 这 并 非 总 成 立 ， 很 快 就 可 以 看 到 。 
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一 个 MySQL 内 建 的 存储 引擎 支持 这 一 点 。InnoDB 将 通过 主键 聚集 数据 ， 这 也 就 是 说 图 
5-3 中 的 “被 索引 的 列 ” 就 是 主键 列 。 


如 果 没 有 定义 主键 ，InnoDB 会 选择 一 个 唯一 的 非 空 索 引 代替 。 如 果 没 有 这 样 的 索引 ， 
InnoDB Akane M—-TFERRIEARRA S|. InnoDB 只 聚集 在 同一 个 页 面 中 的 记录 。 
包含 相 邻 键 值 的 页 面 可 能 会 相 跑 甚 远 。 


聚 得主 键 可 能 对 性 能 有 帮助 ， 但 也 可 能 导致 严重 的 性 能 问题 。 所 以 需要 仔细 地 考虑 聚 复 
索引 ， 尤 其 是 将 表 的 存储 引擎 从 InnoDB 改 成 其 他 引擎 的 时 候 〈 反 过 来 也 一 样 ) 。 


聚集 的 数据 有 一 些 重要 的 优点 : 


© 可 以 把 相关 数据 保存 在 一 起 。 例 如 实现 电子 邮箱 时 ， 可 以 根据 用 户 ID 来 聚集 数据 ， 
这 样 只 需要 从 磁盘 读 取 少数 的 数据 页 就 能 获取 某 个 用 户 的 全 部 邮件 。 如 果 没 有 使 用 
聚 徐 索 引 ， 则 每 封 邮件 都 可 能 导致 一 次 磁盘 IO。 

。 数据 访问 更 快 。 聚 徐 索 引 将 索引 和 数据 保存 在 同一 个 B-Tree H, HEARERS P 
获取 数据 通常 比 在 非 聚 徐 索 引 [中 查找 要 快 。 

。 使 用 覆盖 索引 扫描 的 查询 可 以 直接 使 用 页 市 点 中 的 主键 值 。 


如 果 在 设计 表 和 查询 时 能 充分 利用 上 面 的 优点 ， 那 就 能 极 大 地 提升 性 能 。 同 时 ， 聚 徐 索 


© 育 徐 数据 最 大 限度 地 提高 了 I/O 密集 型 应 用 的 性 能 ， 但 如 果 数 据 全 部 都 放 在 内 存 中 ， 
则 访问 的 顺序 就 没 那 么 重要 了 ， 聚 钞 索 引 也 就 没什么 优势 了 。 

。 插入 速度 严重 依赖 于 插入 顺序 。 按 照 主键 的 顺序 插入 是 加 载 数据 到 InnoDB 表 中 速 
度 最 快 的 方式 。 但 如 果 不 是 按照 主键 顺序 加 载 数据 ， 那 么 在 加 载 完 成 后 最 好 使 用 
OPTIMIZE TABLE 命令 重新 组 织 一 下 表 。 

。 更 新 聚 针 索引 列 的 代价 很 高 ， 因 为 会 强制 InnoDB 将 每 个 被 更 新 的 行 移动 到 新 的 位 
置 。 

。 基于 聚 徐 索引 的 表 在 插入 新 行 ， 或 者 主键 被 更 新 导致 需 要 移动 行 的 时 候 ， 可 能 面临 
“Tia (page split)” 的 问题 。 当 行 的 主键 值 要 求 必须 将 这 一 行 插 入 到 某 个 已 满 的 
页 中 时 ， 存 储 引 警 会 将 该 页 分 裂 成 两 个 页 面 来 容纳 该 行 ， 这 就 是 一 次 页 分 裂 操作 。 
页 分 裂 会 导致 表 占 用 更 多 的 磁盘 空间 。 

。 聚 秒 索引 可 能 导致 全 表 扫 描 变 慢 ， 尤 其 是 行 比较 稀疏 ， 或 者 由 于 页 分 裂 导 致 数据 存 
储 不 连续 的 时 候 。 

。 二 级 索引 〈 非 聚 徐 索引 ) 可 能 比 想象 的 要 更 大 ， 因 为 在 二 级 索引 的 叶子 市 点 包含 了 
引用 行 的 主键 列 。 
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。 二 级 索引 访问 需要 两 次 索引 查找 ， 而 不 是 一 次 。 


最 后 一 氮 可 能 让 人 有 些 疑 惑 ， 为 什么 二 级 索引 需要 两 次 索引 查找 ? 答案 在 于 二 级 索引 中 
保存 的 “ 行 指 针 ”的 实质 。 要 记 住 ， 二 级 索引 叶子 节点 保存 的 不 是 指向 行 的 物理 位 置 的 
指针 ， 而 是 行 的 主键 值 。 


这 意味 着 通过 二 级 索引 查找 行 ， 存 储 引 警 需要 找到 二 级 索引 的 叶子 节点 获得 对 应 的 主键 
值 ， 然 后 根据 这 个 值 去 聚 簇 索 引 中 查找 到 对 应 的 行 。 这 里 做 了 重复 的 工作 : 两 次 B-Tree 
查找 而 不 是 一 次 “。 对 于 InnoDB， 自 适应 哈 希 索引 能 够 减少 这 样 的 重复 工作 。 


InnoDB 和 MyISAM 的 数据 分 布 对 比 


育 徐 索引 和 非 育 钞 索引 的 数据 分 布 有 区 别 ， 以 及 对 应 的 主键 索引 和 二 级 索引 的 数据 分 布 
也 有 区 别 ， 通 常会 让 人 感到 困扰 和 意外 。 来 看 看 InnoDB 和 MyISAM 是 如 何 存储 下 面 这 
个 表 的 : 
CREATE TABLE layout test ( 
col1 int NOT NULL, 
col2 int NOT NULL, 


PRIMARY KEY(col1), 
KEY(col2) 


假设 该 表 的 主键 取 值 为 1 ~ 10 000， 按 照 随机 顺序 插入 并 使 用 OPTIMIZE TABLE 命令 做 
了 优化 。 换 名 话说， 数据 在 磁盘 上 的 存储 方式 已 经 最 优 ， 但 行 的 顺序 是 随机 的 。 列 col2 
的 值 是 从 1 ~ 100 之 间 随 机 赋值 ， 所 以 有 很 多 重复 的 值 。 


MyISAM 的 数据 分 布 。MyISAM 的 数据 分 布 非常 简单 ， 所 以 先 介绍 它 。MyISAM 按照 数 
据 插 入 的 顺序 存储 在 磁盘 上 ， 如 图 5-4 所 示 。 


在 行 的 劳 边 显示 了 行 号 ， 从 0 开始 递增 。 因 为 行 是 定 长 的 ， 所 以 MyISAM 可 以 从 表 的 开 
头 跳 过 所 需 的 字 节 找到 需要 的 行 (MyISAM 并 不 总 是 使 用 图 5-4 中 的 “ 行 号 ”， 而 是 根 
据 定 长 还 是 变 长 的 行使 用 不 同 策略 )。 


这 种 分 布 方 式 很 容易 创建 索引 。 下 面 显示 的 一 系列 图 ， 隐 藏 了 页 的 物理 细节 ， 只 显示 索 
引 中 的 “市 尽 "， 索 引 中 的 每 个 叶子 市 点 包含 “ 行 写 ”"。 图 5-5 显示 了 表 的 主键 。 


这 里 忽略 了 一 些 细 市 ， 例 如 前 一 个 B-Tree 节点 有 多 少 个 内 部 节点 ， 不 过 这 并 不 影响 对 非 
聚 签 存 储 引 擎 的 基本 数据 分 布 的 理解 。 


注 9: 顺便 提 一 下 ， 并 不 是 所 有 的 非 聚 巷 索引 部 能 做 到 一 次 索引 查询 就 找到 行 。 当 行 更 新 的 时 候 可 能 无 
法 存储 在 原来 的 位 置 ， 这 会 导致 表 中 出 现行 的 碎片 化 或 者 移动 行 并 在 原 位 置 保存 “向 前 指针 ”， 这 
两 种 情况 部 会 导致 在 查找 行 时 需要 更 多 的 工作 。 
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f É 叶子 节点 9 


+ 


l 根据 coll 列 排序 





(5-5; MylSAM 表 layout_test 的 主键 分 布 


AB col2 列 上 的 索引 又 会 如 何 呢 ? 有 什么 特殊 的 吗 ? 回答 是 否定 的 : 它 和 其 他 索引 没有 什 
么 区 别 。 图 5-6 显示 了 col2 列 上 的 索引 。 


列 值 


4—. 2 


i 叶子 节点 ， 
+ $È col2 列 排序 





图 5-6: MyISAM 表 layout_test 的 col2 列 索引 的 分 布 


事实 上 ，MyISAM 中 主键 索引 和 其 他 索引 在 结构 上 没有 什么 不 同 。 主 键 索 引 就 是 一 个 名 
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为 PRIMARY 的 唯一 非 空 索 引 。 


InnoDB 的 数据 分 布 。 因 为 InnoDB 支持 聚 侯 索引 ， 所 以 使 用 非常 不 同 的 方式 存储 同样 的 
数据 。InnoDB 以 如 图 5-7 所 示 的 方式 存储 数据 。 









CO 主键 列 ( colt ) 
事务 ID 

回 滚 指针 

非 主键 列 (col2 ) 







InnoDB FRR 
”索引 叶子 节点 


图 5-7: InnoDB 表 |layout_test 的 主键 分 布 


第 一 眼看 上 去 ， 感 觉 该 图 和 前 面 的 图 5-5 没有 什么 不 同 ， 但 再 仔细 看 细节 ， 会 注意 到 该 
图 显示 了 整个 表 ， 而 不 是 只 有 索引 。 因 为 在 InnoDB H, RRES WME” R, MAR 
像 MyISAM 那样 需要 独立 的 行 存储 。 


O> 聚 徐 索 引 的 每 一 个 叶子 节点 都 包含 了 主键 值 、 事 务 ID、 用 于 事务 和 MVCC- "的 回 滚 指 
针 以 及 所 有 的 剩余 列 〈 在 这 个 例子 中 是 coL2) 。 如 果 主 键 是 一 个 列 前 缀 索引 ，InnoDB 也 
会 包含 完整 的 主键 列 和 剩 下 的 其 他 列 。 


还 有 一 点 和 MyISAM 的 不 同 是 ，InnoDB 的 二 级 索引 和 聚 徐 索引 很 不 相同 。InnoDB 二 
级 索引 的 叶子 市 点 中 存储 的 不 是 “ 行 指 针 ”， 而 是 主键 值 ， 并 以 此 作为 指向 行 的 “指针 ”。 
这 样 的 策略 减少 了 当 出 现行 移动 或 者 数据 页 分 裂 时 二 级 索引 的 维护 工作 。 使 用 主键 值 当 
作 指 针 会 让 二 级 索引 占用 更 多 的 空间 ， 换 来 的 好 处 是 ，InnoDB 在 移动 行 时 无 须 更 新 二 
级 索引 中 的 这 个 “指针 ”。 


图 5-8 显示 了 示例 表 的 coL2 索引 。 每 一 个 叶子 节点 都 包含 了 索引 列 (这 里 是 coL2)， 紧 
接着 是 主键 值 (coll). 


5-8 展示 了 B-Tree 的 叶子 布点 结构 ， 但 我 们 故意 省 略 了 非 叶 子 届 点 这 样 的 细节 。 
InnoDB 的 非 叶 子 市 点 包含 了 索引 列 和 一 个 指向 下 级 市 点 的 指针 《下 一 级 节点 可 以 是 非 


注 10 : 多 版 本 控制 。 一 一 译 者 注 
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Me A, WAT A). BORER RREN. 


索引 列 (col? ) 
CI 主键 列 ( colt ) 


~ 


~ InnoDB 二 级 索引 
l 叶子 节点 





图 5-8: lnnoDB 表 layout_test 的 二 级 索引 分 布 


图 5-9 是 描述 InnoDB 和 MyISAM 如 何 存放 表 的 抽象 图 。 从 
InnoDB 和 MyISAM 保存 数据 和 索引 的 区 别 。 





5-9 中 可 以 很 容易 看 出 
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InnoDB ( HERE ) 表 分 布 


MyISAM ( IERSE ) 表 分 布 
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性 ， 也 不 用 担心 。 随 着 学 习 的 深入 ， 尤 其 是 学 完 本 章 剩 下 的 部 分 以 及 下 一 章 以 后 ， 这 些 
问题 就 会 变 得 越发 清楚 。 这 些 概念 有 些 复杂 ， 需 要 一 些 时 间 才 能 完全 理解 。 


在 InnoDB 表 中 按 主键 顺序 捅 入 行 

如 果 正 在 使 用 InnoDB 表 并 且 没 有 什么 数据 需要 育 集 ， 那 么 可 以 定义 一 个 代理 键 
(surrogate key) 作为 主键 ， 这 种 主键 的 数据 应 该 和 应 用 无 关 ， 最 简单 的 方法 是 使 用 
AUTO_INCREMENT 自 增 列 。 这 样 可 以 保证 数据 行 是 按 顺 序 写 入 ， 对 于 根据 主键 做 关联 操作 
的 性 能 也 会 更 好 。 

最 好 避免 随机 的 〈 不 连续 且 值 的 分 布 范 围 非常 大 ) RRB, HREM VO 密集 型 的 
应 用 。 例 如 ， 从 性 能 的 角度 考虑 ， 使 用 UUID 来 作为 聚 徐 索 引 则 会 很 糟糕 : CEER 
索引 的 播 入 变 得 完全 随机 ， 这 是 最 坏 的 情况 ， 使 得 数据 没有 任何 聚集 特性 。 


为 了 演示 这 一 点 ， 我 们 做 如 下 两 个 基准 测试 。 第 一 个 使 用 整数 ID 插入 userinfo 表 : 


CREATE TABLE userinfo ( 


id int unsigned NOT NULL AUTO INCREMENT, 
name varchar(64) NOT NULL DEFAULT '', 

email | varchar(64) NOT NULL DEFAULT '', 
password varchar(64) NOT NULL DEFAULT '', 

dob date DEFAULT NULL, 

address varchar(255) NOT NULL DEFAULT '', 

city varchar(64) NOT NULL DEFAULT '', 

state id tinyint unsigned NOT NULL DEFAULT '0', 
zip varchar(8) NOT NULL DEFAULT '', 
country id smallint unsigned NOT NULL DEFAULT ‘o’, 
gender ('M','F')NOT NULL DEFAULT 'M', 
account_type varchar(32) NOT NULL DEFAULT '', 
verified tinyint NOT NULL DEFAULT “0 ， 
allow_mail tinyint unsigned NOT NULL DEFAULT “0 ， 


parrent_account int unsigned NOT NULL DEFAULT 0 ， 
closest_airport varchar(3) NOT NULL DEFAULT '', 
PRIMARY KEY (id), 
UNIQUE KEY email (email), 
KEY country id (country_id), 
KEY state_id (state_id), 
KEY state id 2 (state_id,city,address) 
) ENGINE=InnoDB 


注意 到 使 用 了 自 增 的 整数 ID 作为 主键 = 。 
第 二 个 例子 是 userinfo_uuid 表 。 除 了 主键 改 为 UUID ， 其 余 和 前 面 的 userinfo 表 完 全 
相同 o 


注 11 : 值得 指出 的 是 ， 这 是 一 个 真实 案例 中 的 表 ， 有 很 多 二 级 索引 和 列 。 如 果 删 除 这 些 二 级 索引 只 测试 
主键 ， 那 么 性 能 差异 将 会 更 明显 。 
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CREATE TABLE userinfo_uuid ( 
uuid varchar(36) NOT NULL, 


我 们 测试 了 这 两 个 表 的 设计 。 首 先 ， 我 们 在 一 个 有 足够 内 存 容 纳 索引 的 服务 器 上 问 这 两 
个 表 各 插入 100 万 条 记录 。 然 后 向 这 两 个 表 继 续 插入 300 万 条 记录 ， 使 索引 的 大 小 超过 
服务 器 的 内 存 容量 。 表 5-1 对 测试 结果 做 了 比较 。 


表 5-1: 向 InnoDB 表 插入 数据 的 测试 结果 


Ra «TR 时 间 ( 秒 ) ”索引 大 小 (MB) 
userinfo 1 000 000 137 342 
userinfo uuid 1 000 000 180 544 
userinfo 3 000 000 1233 1036 
userinfo. _uuid | 3 000 000 4525 1707 — 


er ee pp TE ee 


注意 到 向 UUID 主键 插入 行 不 仅 花费 的 时 间 更 长 ， 而 且 索 引 占 用 的 空间 也 更 大 。 这 一 方 
面 是 由 于 主键 字段 更 长 ， 另 一 方面 毫 无 疑问 是 由 于 页 分 裂 和 碎片 导致 的 。 


为 了 明白 为 什么 会 这 样 ， 来 看 看 往 第 一 个 表 中 插入 数据 时 ， 索 引发 生 了 什么 变化 。 
图 5-10 显示 了 插 满 一 个 页 面 后 继续 插入 相 邻 的 下 一 个 页 面 的 场景 。 


顺序 插入 到 页 :每 条 新 记录 当 页 被 插 满 后 ， 继 续 插入 到 新 的 页 
总 是 在 前 一 条 记录 的 后 面 插入 





图 5-10: 向 聚 禾 索 引 插 入 顺序 的 索引 值 


如 图 5-10 所 示 ， 因 为 主键 的 值 是 顺序 的 ， 所 以 InnoDB 把 每 一 条 记录 都 存储 在 上 一 条 
记录 的 后 面 。 当 达到 页 的 最 大 填充 因子 时 (InnoDB 默认 的 最 大 填充 因子 是 页 大 小 的 
15/16， 留 出 部 分 空间 用 于 以 后 修改 )， 下 一 条 记录 就 会 写 入 新 的 页 中 。 一 旦 数据 按照 这 
种 顺序 的 方式 加 载 ,主键 页 就 会 近似 于 被 顺序 的 记录 填 满 ,这 也 正 是 所 期 望 的 结果 (然而 
二 级 索引 页 可 能 是 不 一 样 的 )。 


对 比 一 下 向 第 二 个 使 用 了 UUID 聚 秘 索引 的 表 插 和 数据， 看 看 有 什么 不 同 ， 图 5-11 显示 
TER. 
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因为 新 行 的 主键 值 不 一 定 比 之 前 插入 的 大 ， 所 以 InnoDB 无 法 简单 地 总 是 把 新 行 插入 到 
索引 的 最 后 ， 而 是 需要 为 新 的 行 寻找 合适 的 位 置 一 一 通常 是 已 有 数据 的 中 间 位 置 一 一 并 
且 分 配 空间 。 这 会 增加 很 多 的 额外 工作 ， 并 导致 数据 分 布 不 够 优化 。 下 面 是 总 结 的 一 些 
RRA : 


e 写 和 的 目标 页 可 能 已 经 刷 到 磁盘 上 并 从 缓存 中 移 除 ， 或 者 是 还 没有 被 加 载 到 缓存 中 ， 
InnoDB 在 插入 之 前 不 得 不 先 找到 并 从 磁盘 读 取 目标 页 到 内 存 中 。 这 将 导致 大 量 的 随 
机 IO。 

e 因为 写 入 是 乱 序 的 ，InnoDB 不 得 不 频繁 地 做 页 分 裂 操 作 ， 以 便 为 新 的 行 分 配 空间 。 
页 分 裂 会 导致 移动 大 量 数据 ， 一 次 插入 最 少 需 要 修改 三 个 页 而 不 是 一 个 页 。 

e 由 于 频繁 的 页 分 裂 ， 页 会 变 得 稀疏 并 被 不 规则 地 填充 ， 所 以 最 终 数据 会 有 碎片 。 


在 把 这 些 随机 值 载 和 人 到 聚 徐 索引 以 后 ， 也 许 需要 做 一 次 OPTIMIZE TABLE 来 重建 表 并 优化 
页 的 填充 。 


从 这 个 案例 可 以 看 出 ， 使 用 InnoDB 时 应 该 尽 可 能 地 按 主键 顺序 插入 数据 ， 并 且 尽 可 能 
地 使 用 单调 增加 的 聚 侯 键 的 值 来 插入 新 行 。 


插入 UUD: 新 的 记录 可 能 插入 到 之 前 记录 的 中 间 ， 
导致 需 雪 强 制 移动 之 前 的 记录 


被 写 满 且 已 经 刷 到 磁盘 上 的 页 
可 能 会 被 重新 读 取 


只 显示 了 UUD 
.的 前 13 个 字符 





图 5-11: 向 聚 簇 索引 中 插入 无 序 的 值 
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顺序 的 主键 什么 时 候 会 造成 更 坏 的 结果 ? 


对 于 高 并 发 工作 负载 ， 在 InnoDB 中 按 主键 顺序 插入 可 能 会 造成 明显 的 争 用 。 主 键 
的 上 界 会 成 为 “热点 。 因 为 所 有 的 插入 都 发 生 在 这 里 ， 所 以 并 发 插入 可 能 导致 间 


孙 锁 竞争 。 另 一 个 热点 可 能 是 AUTO_INCREMENT 锁 机 制 ; 如 果 遇 到 这 个 问题 ， 则 可 
能 需要 考虑 重新 设计 表 或 者 应 用 ， 或 者 更 改 innodb autoinc lock mode 配置 。 如 
果 你 的 服务 器 版 本 还 不 支持 innodb autoinc lock mode 参数 ， 可 以 升级 到 新 版 本 
的 InnoDB， 可 能 对 这 种 场景 会 工作 得 更 好 。 





5.3.6 覆盖 索引 
通常 大 家 都 会 根据 查询 的 WHERE 条 件 来 创建 合适 的 索引 ， 不 过 这 只 是 索引 优化 的 一 个 方 


面 。 设 计 优秀 的 索引 应 该 考虑 到 整个 查询 ， 而 不 单单 是 WHERE 条件 部 分 。 索 引 确 实 是 一 

种 查找 数据 的 高 效 方式 ， 但 是 MySQL 也 可 以 使 用 索引 来 直接 获取 列 的 数据 ， 这 样 就 不 

再 需要 读 取 数 据 行 。 如 果 索 引 的 叶子 节点 中 已 经 包含 要 查询 的 数据 ， 那 么 还 有 什么 必要 

再 回 表 查询 呢 ? 如 果 一 个 索引 包含 (或 者 说 覆盖 ) 所 有 需要 查询 的 字段 的 值 ， 我 们 就 称 
之 为 “覆盖 索引 ”。 


覆盖 索引 是 非常 有 用 的 工具 ， 能 够 极 大 地 提高 性 能 。 考 虑 一 下 如 果 查 询 只 需要 扫描 索引 
而 无 须 回 表 ， 会 带 来 多 少 好 处 : 


。 索引 条 目 通 常 远 小 于 数据 行 大 小 ， 所 以 如 果 只 需要 读 取 索引 ， 那 MySQL 就 会 极 大 
地 减少 数据 访问 量 。 这 对 缓存 的 负载 非常 重要 ， 因 为 这 种 情况 下 响应 时 间 大 部 分 花 
费 在 数据 拷贝 上 。 和 覆盖 索引 对 于 I/O 密集 型 的 应 用 也 有 帮助 ， 因 为 索引 比 数据 更 小 ， 
更 容易 全 部 放 入 内 存 中 (这 对 于 MyISAM 尤其 正确 ， 因 为 MyISAM 能 压缩 索引 以 
变 得 更 小 )。 

。 因为 索引 是 按照 列 值 顺 序 存 储 的 (至 少 在 单个 页 内 是 如 此 )， 所 以 对 于 I/O 密集 型 的 
苑 围 查询 会 比 随机 从 磁盘 读 取 每 一 行 数据 的 IO 要 少 得 多 。 对 于 某 些 存储 引擎 ， 例 
如 MyISAM 和 Percona XtraDB ， 甚 至 可 以 通过 OPTIMIZE 命令 使 得 索引 完全 顺序 排 
列 ， 这 让 简单 的 范围 查询 能 使 用 完全 顺序 的 索引 访问 。 

。 一些 存储 引擎 如 MyISAM 在 内 存 中 只 缓存 索引 ， 数 据 则 依赖 于 操作 系统 来 缓存 ， 因 
此 要 访问 数据 需要 一 次 系统 调用 。 这 可 能 会 导致 严重 的 性 能 问题 ， 尤 其 是 那些 系统 
调用 占 了 数据 访问 中 的 最 大 开销 的 场景 。 

e 由 于 InnoDB 的 聚 徐 索 引 ， 覆 盖 索 引 对 InnoDB 表 特 别 有 用 。 InnoDB 的 二 级 索引 在 
叶子 节点 中 保存 了 行 的 主键 值 ， 所 以 如 果 二 级 主键 能 够 覆盖 查询 ， 则 可 以 避免 对 主 
键 索 引 的 二 次 查询 。 
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在 所 有 这 些 场 景 中 ， 在 索引 中 满足 查询 的 成 本 一 般 比 查询 行 要 小 得 多 。 


不 是 所 有 类 型 的 索引 都 可 以 成 为 禾 益 索引 。 禾 盖 索 引 必 须要 存储 索引 列 的 值 ， 而 哈 希 索 
引 、 空 间 索 引 和 全 文 索引 等 都 不 存储 索引 列 的 值 ， 所 以 MySQL 只 能 使 用 B-Tree 索引 做 
覆盖 索引 。 另 外 ， 不 同 的 存储 引擎 实现 覆盖 索引 的 方式 也 不 同 ， 而 且 不 是 所 有 的 引擎 都 
支持 覆盖 索引 (在 写作 本 书 时 ，Memory 存储 引擎 就 不 支持 覆盖 索引 ) 。 


当 发 起 一 个 被 索引 覆盖 的 查询 (也 则 做 索引 覆盖 查询 ) 时 ， 在 EXPLAIN 的 Extra 列 可 以 
看 到 “Using index” 的 信息 站 2。 例 如 ， 表 sakilainventory 有 一 个 多 列 索 引 (store id, 
film_id), MySQL 如 果 只 需 访 问 这 两 列 ， 就 可 以 使 用 这 个 索引 做 覆盖 索引 ， 如 下 所 示 : 


mysql> EXPLAIN SELECT store id，film id FROM sakila.inventory\G 
六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 冰冰 六 六 六 六 六 六 六 4 rgy EERO IIE 
id: 1 
select type: SIMPLE 
table: inventory 
type: index 
possible keys: NULL 
key: idx store id film id 
key_len: 3 
ref: NULL 
rows: 4673 
Extra: Using index 


索引 覆盖 查询 还 有 很 多 陷阱 可 能 会 导致 无 法 实现 优化 。MySQL 查询 优化 器 会 在 执行 查 
询 前 判断 是 否 有 一 个 索引 能 进行 覆盖 。 假 设 索 引 和 覆盖 了 WHERE 条 件 中 的 字段 ， 但 不 是 整 
个 查询 涉及 的 字段 。 如 果 条 件 为 假 (false)，MySQL 5.5 和 更 早 的 版 本 也 总 是 会 回 表 获 
取 数 据 行 ， 尽 管 并 不 需要 这 一 行 且 最 终 会 锌 过滤 掉 。 


来 看 看 为 什么 会 发 生 这 样 的 情况 ， 以 及 如 何 重 写 查询 以 解决 该 问题 。 从 下 面 的 查询 开始 : 


mysql> EXPLAIN SELECT * FROM products WHERE actor= SEAN CARREY 
-> AND title like '%APOLLO%*\G 
HAAR AKA KKK K RAK AR RRR 1 。 了 OW I a a a kkk kk kkk kk 
id: 1 
select_type: SIMPLE 
table: products 
type: ref 
possible keys: ACTOR, IX PROD ACTOR 
key: ACTOR 


rows: 10 
Extra: Using where 


212: 很 容易 把 Extra 列 的 “Using index” Že type 列 的 “index” 摘 混 消 。 其 实 这 两 者 完全 不 同 ，type 
列 和 徐 盖 索引 毫 无 关系 ; 它 只 是 表示 这 个 查询 访问 数据 的 方式 ， 或 者 说 是 MySQL 查找 行 的 方式 。 
MySQL 手册 中 称 之 为 连接 方式 (join type). 
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这 里 索引 无 法 覆盖 该 查询 ， 有 两 个 原因 : 


没有 任何 索引 能 够 覆盖 这 个 查询 。 因 为 查询 从 表 中 选择 了 所 有 的 列 ， 而 没有 任何 索 
引 覆 盖 了 所 有 的 列 。 不 过 ， 理 论 上 MySQL 还 有 一 个 捷径 可 以 利用 : WHERE 条 件 中 的 
列 是 有 索引 可 以 覆盖 的 ， 因 此 MySQL 可 以 使 用 该 索引 找到 对 应 的 actor 并 检查 title 
是 否 匹 配 ， 过 滤 之 后 再 读 取 需要 的 数据 行 。 

MySQL 不 能 在 索引 中 执行 LIKE 操作 。 这 是 底层 存储 引擎 API 的 限制 ，MySQL 5.5 
和 更 早 的 版 本 中 只 允许 在 索引 中 做 简单 比较 操作 (例如 等 于 、 不 等 于 以 及 大 于 )。 
MySQL 能 在 索引 中 做 最 左前 级 匹 配 的 LIKE 比较 ， 因 为 该 操作 可 以 转换 为 简单 的 比 
较 操作 ， 但 是 如 果 是 通配符 开头 的 LIKE 查询 ， 存 储 引 擎 就 无 法 做 比较 匹配 。 这 种 情 
况 下 ，MySQL 服务 器 只 能 提取 数据 行 的 值 而 不 是 索引 值 来 做 比较 。 


也 有 办 法 可 以 解决 上 面 说 的 两 个 问题 ， 需 要 重 写 查 询 并 巧妙 地 设计 索引 。 先 将 索引 扩展 
至 覆盖 三 个 数据 列 (artist, title, prod_ id) ， 然 后 按 如 下 方式 重 写 查询 : 


mysql> EXPLAIN SELECT * 
-> FROM products 


-> JOIN ( 

-> SELECT prod_id 

-> FROM products 

-> WHERE actor='SEAN CARREY' AND title LIKE “X%KAPOLLOX 


->  ) AS t1 ON (t1.prod_id=products.prod_id)\G 
ee 2 2 oi a 2 E 2K ok 2 2 2 2K k 2 i i kk k k kkk 1. row 2K 2 2 2K OK a i 2 E a 2K OK OK OK OK k kkk k 


id: 1 
select_type: PRIMARY 
table: <derived2> 
.. omitted... 
RAHA HR RR RK EK RK AR RAR IK ry AE kk kkk kkk k kkk k kkk kkk 
id: 1 
select_type: PRIMARY 
table: products 
..-omitted... 
A OK KK Ke KK KK OK EK KE k k k kkk 3. row SE I OK KK A EK OK EK OK k k kk kkk 
id: 2 
select_type: DERIVED 
table: products 
type: ref 
possible keys: ACTOR,ACTOR_2,IX_PROD_ACTOR 
key: ACTOR 2 
key len: 52 


rows: 11 
Extra: Using where; Using index 


我 们 把 这 种 方式 叫做 延迟 关联 (deferred join) ， 因 为 延迟 了 对 列 的 访问 。 在 查询 的 第 一 
阶段 MySQL 可 以 使 用 覆盖 索引 ， 在 FROM 子 句 的 子 查询 中 找到 匹配 的 prod_ id， 然 后 根 
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据 这 些 prod_id 值 在 外 层 查询 匹配 获取 需要 的 所 有 列 值 。 虽 然 无 法 使 用 索引 履 盖 整个 查 
询 ， 但 总 算 比 完全 无 法 利用 索引 覆盖 的 好 。 


这 样 优化 的 效果 取决 于 WHERE 条 件 匹 配 返 回 的 行 数 。 假 设 这 个 products 表 有 100 万 行 ， 
我 们 来 看 一 下 上 面 两 个 查询 在 三 个 不 同 的 数据 集 上 的 表现 ， 每 个 数据 集 都 包含 100 万 行 : 


1. 第 一 个 数据 集 ，Sean Carrey 出 演 了 30 000 部 作品 ， 其 中 有 20 000 部 的 标题 中 包含 
T Apollo, 


2. 第 二 个 数据 集 ，Sean Carrey HiK T 30 000 部 作品 ， 其 中 40 部 的 标题 中 包含 了 
Apollo。 


3. 第 三 个 数据 集 ，Sean Carrey 出 演 了 50 部 作品 ， 其 中 10 部 的 标题 中 包含 了 Apollo。 
使 用 上 面 的 三 种 数据 集 来 测试 两 种 不 同 的 查询 ， 得 到 的 结果 如 表 5-2 AR. 
表 5-2: 索引 覆盖 查询 和 非 覆盖 查询 的 测试 结果 


数据 集 FEH 优化 后 的 查询 、 
示例 1 ”每 秒 5 次 查询 每 秒 5 次 查询 

示例 2 ”每 秒 7 次 查询 每 秒 35 次 查询 
MA 3 ”每 秘 2 406 次 查询 BH 2000 KE 
下 面 是 对 结果 的 分 析 : 


。 在 示例 1 中 ， 查 询 返 回 了 一 个 很 大 的 结果 集 ， 因 此 看 不 到 优化 的 效果 。 大 部 分 时 间 
都 化 在 读 取 和 发 送 数据 上 了 。 

© 在 示例 2 中 ， 经 过 索引 过 滤 ， 尤 其 是 第 二 个 条 件 过 滤 后 只 返回 了 很 少 的 结果 集 ， 优 
化 的 效果 非常 明显 : 在 这 个 数据 集 上 性 能 提高 了 5 倍 ,优化 后 的 查询 的 效率 主要 得 
益 于 只 需要 读 取 40 行 完 整数 据 行 ， 而 不 是 原 查 询 中 需要 的 30 000 行 。 

。 在 示例 3 中 ， 显 示 了 子 查 询 效 率 反 而 下 降 的 情况 。 因 为 索引 过 滤 时 符合 第 一 个 条 件 
的 结果 集 已 经 很 小 ， 所 以 子 查 询 带 来 的 成 本 反而 比 从 表 中 直接 提取 完整 行 更 高 。 


在 大 多 数 存储 引擎 中 ， 禾 盖 索 引 只 能 和 帮 盖 那些 只 访问 索引 中 部 分 列 的 查询 。 不 过 ， 可 以 
更 进一步 优化 InnoDB。 回 想 一 下 ，InnoDB 的 二 级 索引 的 叶子 节点 都 包含 了 主键 的 值 ， 
这 意味 着 InnoDB 的 二 级 索引 可 以 有 效 地 利用 这 些 “ 额 外 ”的 主键 列 来 覆盖 查询 。 


例如 ，sakila.actor 使 用 InnoDB 存储 引擎 ， 并 在 Last_name 字段 有 二 级 索引 ， 虽 然 该 
索引 的 列 不 包括 主键 actor_ id， 但 也 能 够 用 于 对 actor_id 做 覆盖 查询 : 
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mysql> EXPLAIN SELECT actor_id, last_name 
-> FROM sakila.actor WHERE last name = 'HOPPER'\G 
KRKKKK KKK AKA KKK kk kkk kkkkkkk 1 row SEO CRICK AK ACK 
id: 1 
select type: SIMPLE 
table: actor 
type: ref 
possible keys: idx_actor_last_name 
key: idx_actor_last_name 
key len: 137 
ref: const 
rows: 2 
Extra: Using where; Using index 


未 来 MySQL 版 本 的 改进 


上 面 提 到 的 很 多 限制 都 是 由 于 存储 引擎 API 设计 所 导致 的 ， 目 前 的 API 设 计 不 允 
许 MySQL 将 过 滤 条 件 传 到 存储 引擎 层 。 如 果 MySQL 在 后 续 版 本 能 够 做 到 这 一 点 ， 
则 可 以 把 查询 发 送 到 数据 上 ， 而 不 是 像 现在 这 样 只 能 把 数据 从 存储 引擎 拉 到 服务 器 


层 ， 再 根据 查询 条 件 过 滤 。 在 本 书写 作 之 际 ，MySQL 5.6 版 本 (未 正式 发 布 ) 包 
含 了 在 存储 引 党 API 上 所 做 的 一 个 重要 的 改进 ， 其 被 称 为 “索引 条 件 推 送 (index 
condition pushdown)”。 这 个 特性 将 大 大 改善 现在 的 查询 执行 方式 ， 如 此 一 来 上 面 
介绍 的 很 多 技巧 也 就 不 再 需要 了 。 





5.3.7 使 用 索引 扫描 来 做 排序 


MySQL 有 两 种 方式 可 以 生成 有 序 的 结果 : 通过 排序 操作 ; 或 者 按 索 引 顺 序 扫描 ”如 果 
EXPLAIN 出 来 的 type 列 的 值 为 “index”， 则 说 明 MySQL 使 用 了 索引 扫描 来 做 排序 (不 
要 和 Extra 列 的 “Using index” ARW T ). 


扫描 索引 本 身 是 很 快 的 ， 因 为 只 需要 从 一 条 索引 记录 移动 到 紧 接着 的 下 一 条 记录 。 但 如 
采 索 引 不 能 覆盖 查询 所 需 的 全 部 列 ， 那 就 不 得 不 每 扫描 一 条 索引 记录 就 都 回 表 查 询 一 次 
对 应 的 行 。 这 基本 上 都 是 随机 I/JO， 因 此 按 索引 顺序 读 取 数据 的 速度 通常 要 比 顺 序 地 全 
表 扫 描 慢 ， 尤 其 是 在 IO 密集 型 的 工作 负载 时 。 


MySQL 可 以 使 用 同一 个 索引 既 满 足 排序 ， 又 用 于 查找 行 。 因此， 如 采 可 能 ， 设 计 索 引 
时 应 该 尽 可 能 地 同时 满足 这 两 种 任务 ， 这 样 是 最 好 的 。 


只 有 当 索 引 的 列 顺序 和 0RDER BY 子 句 的 顺序 完全 一 致 ， 并 且 所 有 列 的 排序 方向 (倒序 


注 13 : MySQL. 有 两 种 排序 算法 ， 更 多 细节 可 以 阅读 第 7 章 。 
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或 正 序 ) 都 一 样 时 ，MySQL 才能 够 使 用 索引 来 对 结果 做 排序 二 “。 如 果 查 询 需 要 关联 多 
张 表 ， 则 只 有 当 ORDER BY 子 句 引用 的 字段 全 部 为 第 一 个 表 时 ， 才 能 使 用 索引 做 排序 。 
ORDER BY 子 句 和 查找 型 查询 的 限制 是 一 样 的 : 需要 满足 索引 的 最 左前 缀 的 要 求 ; 否则 ， 
MySQL 都 需要 执行 排序 操作 ， 而 无 法 利用 索引 排序 。 


有 一 种 情况 下 ORDER BY 子 句 可 以 不 满足 索引 的 最 左前 缀 的 要 求 ， 就 是 前 导 列 为 常量 的 时 
iko AN WHERE 子 句 或 者 JOIN 子 句 中 对 这 些 列 指定 了 常量 ,就 可 以 “弥补 ”索引 的 不 足 。 


例如 ，Sakila 示例 数据 库 的 表 rental 在 列 (rental date, inventory id, customer id) 
上 有 名 为 rental date 的 索引 。 


(rental date, inventory id, customer_id): 
CREATE TABLE rental ( 
PRIMARY KEY (rental id), 
UNIQUE KEY rental date (rental_date,inventory_id,customer_id), 
KEY idx fk _inventory_ id (inventory id), 


KEY idx fk customer id (customer_id), 
KEY idx_ fk staff_ id (staff_id), 


. T 


MySQL 可 以 使 用 rental_date 索引 为 下 面 的 查询 做 排序 ， 从 EXPLAIN 中 可 以 看 到 没有 
出 现 文件 排序 (filesort) REF” : 


mysql> EXPLAIN SELECT rental id, staff id FROM sakila.rental 
-> WHERE rental date = '2005-05-25' 


-> ORDER BY inventory_ id, customer_id\G 
kokok q, rgy BBE kk kkk kkk kkk kkk kkk k 


type: ref 
possible_keys: rental date 
key: rental_date 
rows: 1 
Extra: Using where 


即使 ORDER BY 子 句 不 满足 索引 的 最 左前 缀 的 要 求 ， 也 可 以 用 于 查询 排序 ， 这 是 因为 索引 
的 第 一 列 被 指定 为 一 个 常数 。 


还 有 更 多 可 以 使 用 索引 做 排序 的 查询 示例 。 下 面 这 个 查询 可 以 利用 索引 排序 ， 是 因为 查 
询 为 索引 的 第 一 列 提供 了 常量 条 件 ， 而 使 用 第 二 列 进行 排序 ， 将 两 列 组 合 在 一 起 ， 就 形 
成 了 索引 的 最 左前 级 : 


.. WHERE rental date = '2005-05-25' ORDER BY inventory_id DESC; 


注 14 : 如 果 需 要 按 不 同方 向 做 排序 ， 一 个 技巧 是 存储 该 列 值 的 反 转 串 或 者 相反 数 。 
注 15 : MySQL 这 里 称 其 为 文件 排序 (filesort) ， 其 实 并 不 一 定 使 用 磁盘 文件 。 
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下 面 这 个 查询 也 没 问题 ， 因 为 ORDER BY 使 用 的 两 列 就 是 索引 的 最 左前 组 - 
.. WHERE rental date > '2005-05-25' ORDER BY rental date, inventory id; 

下 面 是 一 些 不 能 使 用 索引 做 排序 的 查询 : 
oe ”下 面 这 个 查询 使 用 了 两 种 不 同 的 排序 方向 ， 但 是 索引 列 都 是 正 序 排序 的 : 

.. WHERE rental date = '2005-05-25' ORDER BY inventory id DESC, customer id ASC; 
e 下 面 这 个 查询 的 ORDER BY 子 句 中 引用 了 一 个 不 在 索引 中 的 列 : 

.. WHERE rental date = '2005-05-25' ORDER BY inventory id, staff_id; 
© ”下面 这 个 查询 的 WHERE 和 ORDER BY 中 的 列 无 法 组 合成 索引 的 最 左前 级 : 

.. WHERE rental date = "2005-05-25' ORDER BY customer_id; 


。 下 面 这 个 查询 在 索引 列 的 第 一 列 上 是 范围 条 件 ， 所 以 MySQL 无 法 使 用 索引 的 其 余 
列 : 
.. WHERE rental date > '2005-05-25' ORDER BY inventory_id, customer_id; 
。 这 个 查询 在 inventory_id 列 上 有 多 个 等 于 条 件 。 对 于 排序 来 说 ， 这 也 是 一 种 范围 查 
ia) : 
.. WHERE rental_date = '2005-05-25' AND inventory_id IN(1,2) ORDER BY customer_ 
id; 


下 面 这 个 例子 理论 上 是 可 以 使 用 索引 进行 关联 排序 的 ， 但 由 于 优化 器 在 优化 时 将 fiLm_ 
actor 表 当 作 关 联 的 第 二 张 表 ， 所 以 实际 上 无 法 使 用 索引 : 
mysql> EXPLAIN SELECT actor_id, title FROM sakila.film_actor 


-> INNER JOIN sakila.film USING(film_id) ORDER BY actor _id\G 
wee eee een mmo pe ww we ww nw ee eee ee ee ewe ee ee ee een + 


| table | Extra | 
+------------ +---------------------------------------------- + 
| film | Using index; Using temporary; Using filesort | 
| film actor | Using index | 
+------------ +---------------------------------------------- 二 


使 用 索引 做 排序 的 一 个 最 重要 的 用 法 是 当 查 询 同 时 有 ORDER BY 和 LIMIT 子 句 的 时 候 。 后 
面 我 们 会 具体 介绍 这 些 内 容 。 


5.3.8 EM (WHAEA) 索引 
MyISAM 使 用 前 组 压缩 来 减少 索引 的 大 小 ， 从 而 让 更 多 的 索引 可 以 放 入 内 存 中 ， 这 在 某 
些 情况 下 能 极 大 地 提高 性 能 。 默 认 只 压缩 字符 串 ， 但 通过 参数 设置 也 可 以 对 整数 做 压缩 。 
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MyISAM 压缩 每 个 索引 块 的 方法 是 ， 先 完全 保存 索引 块 中 的 第 一 个 值 ， 然 后 将 其 他 值 和 
第 一 个 值 进行 比较 得 到 相同 前 级 的 字 节 数 和 剩余 的 不 同 后 级 部 分 ， 把 这 部 分 存储 起 来 即 
可 。 例 如 ， 索 引 块 中 的 第 一 个 值 是 “perform”， 第 二 个 值 是 “performance”， 那 么 第 二 
个 值 的 前 级 压缩 后 存储 的 是 类 似 “7,ance” 这 样 的 形式 。MyISAM 对 行 指针 也 采用 类 似 
的 前 缀 压缩 方式 。 


压缩 块 使 用 更 少 的 空间 ， 代 价 是 某 些 操 作 可 能 更 慢 。 因 为 每 个 值 的 压缩 前 级 都 依赖 前 面 
的 值 ， 所 以 MyISAM 查找 时 无 法 在 索引 块 使 用 二 分 查找 而 只 能 从 头 开始 扫描 。 正 序 的 扫 
描 速 度 还 不 错 ， 但 是 如 果 是 倒序 扫描 一 一 例如 ORDER BY DESC 一 一 就 不 是 很 好 了 。 所 有 
在 块 中 查找 某 一 行 的 操作 平均 都 需要 扫描 半 个 索引 块 。 


测试 表明 ， 对 于 CPU 密集 型 应 用 ， 因 为 扫描 需要 随机 查找 ， 压 缩 索 引 使 得 MyISAM 在 
索引 查找 上 要 慢 好 几 倍 。 压 缩 索 引 的 倒序 扫描 就 更 慢 了 。 压 缩 索 引 需 要 在 CPU 内 存 资源 
与 磁盘 之 间 做 权衡 。 压 缩 索 引 可 能 只 需要 十 分 之 一 大 小 的 磁盘 空间 ， 如 果 是 IO 密集 型 
应 用 ， 对 某 些 查询 带 来 的 好 处 会 比 成 本 多 很 多 。 


可 以 在 CREATE TABLE 语句 中 指定 PACK KEYS 参数 来 控制 索引 压缩 的 方式 。 


5.3.9 元 余 和 重复 索引 
MySQL 人 允许 在 相同 列 上 创建 多 个 索引 ,无论 是 有 意 的 还 是 无 意 的 。MySQL 需要 单独 维 


护 重 复 的 索引 ， 并 且 优 化 器 在 优化 查询 的 时 候 也 需要 逐个 地 进行 考虑 ， 这 会 影 响 性能。 


重复 索引 是 指 在 相同 的 列 上 按照 相同 的 顺序 创建 的 相同 类 型 的 索引 。 应 该 避免 这 样 创建 
重复 索引 ， 发 现 以 后 也 应 该 立即 移 除 。 


有 了 时 会 在 不 经 意 间 创建 了 重复 索引 ， 例 如 下 面 的 代码 : 


CREATE TABLE test ( 
ID INT NOT NULL PRIMARY KEY, 
A INT NOT NULL, 
B INT NOT NULL, 
UNIQUE(ID), 
INDEX(ID) 
) ENGINE=InnoDB; 


一 个 经 验 不 足 的 用 户 可 能 是 想 创建 一 个 主键 ， 先 加 上 唯一 限制 ， 然 后 再 加 上 索引 以 供 碍 
EFA, BRE, MySQL 的 唯一 限制 和 主键 限制 都 是 通过 索引 实现 的 ， 因 此 ， 上 面 的 
写法 实际 上 在 相同 的 列 上 创建 了 三 个 重复 的 索引 。 通 常 并 没有 理由 这 样 做 ， 除 非 是 在 同 
一 列 上 创建 不 同类 型 的 索引 来 满足 不 同 的 查询 需求 '。 


1216: 如 果 索 引 类 型 不 同 ， 并 不 算是 重复 索引 。 例 如 经 常 有 很 好 的 理由 创建 KEY(col) 和 FULLTEXT 
KEY(col) 两 种 索引 。 
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元 余 索 引 和 重复 索引 有 一 些 不 同 。 如 果 创 建 了 索引 (A, B), 再 创建 索引 (A) METRARSI, 
因为 这 只 是 前 一 个 索引 的 前 级 索引。 因此 索引 (A, B) 也 可 以 当 作 索引 (A) 来 使 用 (这 种 元 
余 只 是 对 B-Tree 索引 来 说 的 )。 但 是 如 果 再 创建 索引 (B, A)， 则 不 是 元 余 索 引 ， 索 引 (B) 
也 不 是 ， 因 为 B 不 是 索引 (A, B) 的 最 左前 级 列 。 另 外 ， 其 他 不 同类 型 的 索引 (例如 哈 希 
索引 或 者 全 文 索引 ) 也 不 会 是 B-Tree 索引 的 元 余 索 引 ， 而 无 论 和 覆盖 的 索引 列 是 什么 。 


元 余 索引 通常 发 生 在 为 表 添 加 新 索引 的 时 候 。 例 如 ， 有 人 可 能 会 增加 一 个 新 的 索引 (A, B) 
而 不 是 扩展 已 有 的 索引 (A)。 还 有 一 种 情况 是 将 一 个 索引 扩展 为 (A, ID), HH ID 是 主键 ， 
对 于 InnoDB 来 说 主键 列 已 经 包含 在 二 级 索引 中 了 ， 所 以 这 也 是 元 余 的 。 


大 多 数 情况 下 都 不 需要 元 余 索 引 ， 应 该 尽量 扩展 已 有 的 索引 而 不 是 创建 新 索引 。 但 也 有 
时 候 出 于 性 能 方面 的 考虑 需要 元 余 索 引 ， 因 为 扩展 已 有 的 索引 会 导致 其 变 得 太 大 ， 从 而 
影响 其 他 使 用 该 索引 的 查询 的 性 能 。 


例如 ， 如 果 在 整数 列 上 有 一 个 索引 ， 现 在 需要 额外 增加 一 个 很 长 的 VARCHAR 列 来 扩展 
该 索引 ， 那 性 能 可 能 会 急剧 下 降 。 特 别 是 有 查询 把 这 个 索引 当 作 覆盖 索引 ， 或 者 这 是 
MyISAM 表 并 且 有 很 多 范围 查询 (由 于 MyISAM 的 前 级 压缩 ) 的 时 候 。 


考虑 一 下 前 面 “在 InnoDB 中 按 主键 顺序 插入 行 ”一 节 提 到 的 userinfo 表 。 这 个 表 有 1 


000 000 行 ， 对 每 个 state id 值 大 概 有 20 000 条 记录 。 在 state id 列 有 一 个 索引 对 下 
面 的 查询 有 用 ， 假 设 查 询 名 为 Q1 : 


mysql> SELECT count(*) FROM userinfo WHERE state_id=5; 


一 个 简单 的 测试 表明 该 查询 的 执行 速度 大 概 是 每 秒 115 次 (QPS)。 还 有 一 个 相关 查询 需 
要 检索 儿 个 列 的 值 ， 而 不 是 只 统计 行 数 ， 假 设 名 为 Q2 : 


mysql> SELECT state id, city, address FROM userinfo WHERE state id=5; 


对 于 这 个 查询 ,测试 结果 QPS 小 于 10*”。 提 升 该 查询 性 能 的 最 简单 办 法 就 是 扩展 索引 为 
(state _ id，city，address) ， 让 索引 能 覆盖 查询 : 


mysql> ALTER TABLE userinfo DROP KEY state_id, 
-> ADD KEY state_id 2 (state_id, city, address); 


索引 扩展 后 ，Q2 运行 得 更 快 了 , 但 是 Q1 却 变 慢 了 。 如 果 我 们 想 让 两 个 查询 都 变 得 更 快 ， 
就 需要 两 个 索引 ， 尽 管 这 样 一 来 原来 的 单列 索引 是 元 余 的 了 。 表 5-3 显示 这 两 个 查询 在 
不 同 的 索引 策略 下 的 详细 结果 ， 分 别 使 用 MyISAM F InnoDB 存储 引擎 。 注 意 到 只 有 


注 17 : 这 里 使 用 了 全 内 存 的 案例 ， 如 果 表 逐渐 变 大 ， 时 致 工作 负载 变 成 IO 密集 型 时 ， 性 能 测试 结果 差距 
会 更 大 。 对 于 COUNT() FH, ASK MMR 100 倍 也 是 很 有 可 能 的 。 
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state _id 2 索引 时 ，InnoDB 引擎 上 的 查询 Q1 的 性 能 下 降 并 不 明显 ， 这 是 因为 InnoDB 
没有 使 用 索引 压缩 。 


RI- 3; : 使 用 不 nine SaR 
| 只 有 state_ id 只 有 state_ id 2 同时 有 state _id 和 state_ id_2 


MyISAM, Q1 114.96 25.40 112.19 
MyISAM, Q2 9.97 16.34 16.37 
InnoDB, Q1 108.55 100.33 107.97 
InnoDB, Q2 12.12 28.04 28.06 


~ 一 一 一 ~ 人 ~ 人 


有 两 个 索引 的 缺点 是 索引 成 本 更 高 。 表 5-4 显示 了 向 表 中 播 入 100 万 行 数据 所 需要 的 
时 间 。 


表 5-4: 在 使 用 不 同 索引 策略 时 插入 100 万 行 数 据 的 速度 
”只 有 state_id ”同时 有 state_id 和 state_id_2 
InnoDB, 对 两 个 索引 都 有 足够 的 内 容 80 $b 136 秒 
AYES a ae a 


res 一 we ee ee art nn ~ 


可 以 看 到 ， 表 中 的 索引 越 多 插入 速度 会 越 慢 。 一 般 来 说 ， 增 加 新 索引 将 会 导致 INSERT、 


”UPDATE、DELETE 等 操作 的 速度 变 慢 ， 特 别 是 当 新 增 索引 后 导致 达到 了 内 存 瓶颈 的 时 候 。 


解决 元 余 索 引 和 重复 索引 的 方法 很 简单 ， 删 除 这 些 索 引 就 可 以 ， 但 首先 要 做 的 是 找 出 
这 样 的 索引 。 可 以 通过 写 一 些 复杂 的 访问 INFORMATION SCHEMA 表 的 查询 来 找 ， 不 过 还 
有 两 个 更 简单 的 方法 。 可 使 用 Shlomi Noach 的 common schema 中 的 一 些 视图 来 定位 ， 
common_schema 是 一 系列 可 以 安装 到 服务 器 上 的 常用 的 存储 和 视图 (http://code.google. 
com/p/common-schema/), 。 这 比 自 己 编写 查询 要 快 而 且 简 单 。 另 外 也 可 以 使 用 Percona 
Toolkit 中 的 pt-duplicate-key-checker， 该 工具 通过 分 析 表 结构 来 找 出 元 余 和 重复 的 索引 。 
对 于 大 型 服务 器 来 说 ， 使 用 外 部 的 工具 可 能 更 合适 些 ,如果 服 务 器 上 有 大 量 的 数据 或 者 
大 量 的 表 ， 查 询 INFORMATION SCHEMA 表 可 能 会 导致 性 能 问题 。 


在 决定 哪些 索引 可 以 被 删除 的 时 候 要 非常 小 心 。 回 忆 一 下 ， 在 前 面 的 InnoDB 的 示例 表 
中 ， 因 为 二 级 索引 的 叶子 节点 包含 了 主键 值 ， 所 以 在 列 (A) 上 的 索引 就 相当 于 在 (A, ID) 
上 的 索引 。 如 果 有 像 WHERE A = 5 ORDER BY ID 这 样 的 查询 ， 这 个 索引 会 很 有 作用 。 但 
如 果 将 索引 扩展 为 (A, B)， 则 实际 上 就 变 成 了 (A, B, ID)， 那 么 上 面 查询 的 ORDER BY FA 
就 无 法 使 用 该 索引 做 排序 ， 而 只 能 用 文件 排序 了 。 所 以 ， 建 议 使 用 Percona 工具 箱 中 的 
pt-upgrade 工具 来 仔细 检查 计划 中 的 索引 变更 。 
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5.3.10 未 使 用 的 索引 


除了 元 余 索引 和 重复 索引 ， 可 能 还 会 有 一 些 服务 器 永远 不 用 的 索引 。 这 样 的 索引 完全 是 
累 玖 ， 建 议 考 虑 删除 = "。 有 两 个 工具 可 以 帮助 定位 未 使 用 的 索引 。 最 简单 有 效 的 办 法 是 
在 Percona Server 或 者 MariaDB 中 先 打 开 userstates 服务 器 变量 (默认 是 关闭 的 ) ， 然 
后 让 服务 器 正常 运行 一 段 时 间 ， 再 通过 查询 INFORMATION SCHEMA. INDEX STATISTICS 就 
能 查 到 每 个 索引 的 使 用 频率 。 


另外 ， 还 可 以 使 用 Percona Toolkit 中 的 pt-index-usage， 该 工具 可 以 读 取 查询 日 志 ， 

对 日 志 中 的 每 条 查询 进行 EXPLAIN 操作 ， 然 后 打印 出 关于 索引 和 查询 的 报告 。 这 个 工具 
不 仅 可 以 找 出 哪些 索引 是 未 使 用 的 ， 还 可 以 了 解 查 询 的 执行 计划 一 一 例如 在 某 些 情况 
r A A 这 可 以 帮助 你 定位 到 那些 偶尔 服务 质量 差 的 查询 ， 
优化 它们 以 得 到 一 致 的 性 能 该 工具 也 可 以 将 结果 写 入 到 MySQL 的 表 中 ， 方便 查 
WER o 


5.3.11 索引 和 锁 


索引 可 以 让 查询 锁定 更 少 的 行 。 如 果 你 的 查询 从 不 访问 那些 不 需要 的 行 ， 那 么 就 会 锁定 
更 少 的 行 ， 从 两 个 方面 来 看 这 对 性 能 都 有 好 处 。 首 先 ， 虽 然 InnoDB 的 行 锁 效率 很 高 ， 
内 存 使 用 也 很 少 ,但 是 锁定 行 的 时 候 仍然 会 带 来 额外 开销 ; 其次， 锁定 超过 需要 的 行 会 
增加 锁 争 用 并 减少 并 发 性 。 


InnoDB 只 有 在 访问 行 的 时 候 才 会 对 其 加 锁 ， 而 索引 能 够 减少 InnoDB 访问 的 行 数 ， 从 
而 减少 锁 的 数量 。 但 这 只 有 当 InnoDB 在 存储 引擎 层 能 够 过 滤 掉 所 有 不 需要 的 行 时 才 有 
效 。 如 果 索 引 无 法 过 滤 掉 无 效 的 行 ， 那 么 在 InnoDB 检索 到 数据 并 返回 给 服务 器 层 以 后 ， 
MySQL 服务 器 才能 应 用 WHERE 子 句 和 ”。 这 时 已 经 无 法 避免 锁定 行 了 : InnoDB 已 经 锁 住 
了 这 些 行 ， 到 适当 的 时 候 才 释放 。 在 MySQL 5.1 和 更 新 的 版 本 中 ，InnoDB 可 以 在 服务 
器 端 过 滤 掉 行 后 就 释放 锁 ， 但 是 在 早期 的 MySQL 版 本 中 ，InnoDB 只 有 在 事务 提交 后 才 
能 释放 锁 。 : 


通过 下 面 的 例子 再 次 使 用 数据 库 Sakila 很 好 地 解释 了 这 些 情况 : 


mysql> SET AUTOCOMMIT=0; 

mysql> BEGIN; 

mysql> SELECT actor_id FROM sakila.actor WHERE actor_id < 5 
-> AND actor_id <> 1 FOR UPDATE; 


注 18 : 有 些 索 引 的 功能 相当 于 唯一 约束 ， 虽 然 该 索引 一 直 没 有 被 查询 使 用 ， 却 可 能 是 用 于 避免 产生 重复 
数据 的 


注 19 : 再 说 一 下 ，MySQL 5.6 对 于 这 里 的 问题 可 能 会 有 很 大 的 帮助 。 
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| actor id | 
+---------- + 
| 2 | 
| 3 | 
| 4 | 
+---------- + 


这 条 查询 仅仅 会 返回 2 ~ 4 之 间 的 行 ， 但 是 实际 上 获取 了 1 ~ 4 之 间 的 行 的 排他 锁 。 
InnoDB 会 锁 住 第 1 行 ， 这 是 因为 MySQL 为 该 查询 选择 的 执行 计划 是 索引 范围 扫描 : 


mysql> EXPLAIN SELECT actor id FROM sakila.actor 
-> WHERE actor_id < 5 AND actor_id <> 1 FOR UPDATE; 


+----+------------- +------- +------- +--------- +-------------------------- + 
| id | select_type | table | type | key | Extra | 
+----+-------------+-------+-------+--------- +-------------------------- + 
| 1 | SIMPLE | actor | range | PRIMARY | Using where; Using index | 
+----+------------- +------- +------- +---------+-------------------------- 


换 名 话说， 底层 存储 引擎 的 操作 是 “从 索引 的 开头 开始 获取 满足 条 件 actor id < 5 的 
记录 ， 服 务 器 并 没有 告诉 InnoDB 可 以 过 滤 第 1 行 的 WHERE 条 件 。 注 意 到 EXPLAIN 的 
Extra 列 出 现 了 “Using where”， 这 表示 MySQL 服务 器 将 存储 引擎 返回 行 以 后 再 应 用 
WHERE 过 滤 条 件 。 


下 面 的 第 二 个 查询 就 能 证 明 第 1 行 确实 已 经 被 锁定 ， 尽 管 第 一 个 查询 的 结果 中 并 没有 这 
个 第 1 行 。 保 持 第 一 个 连接 打开 ， 然 后 开启 第 二 个 连接 并 执行 如 下 查询 : 

mysql> SET AUTOCOMMIT=0; 

mysql> BEGIN; 

mysql> SELECT actor_id FROM sakila.actor WHERE actor_id = 1 FOR UPDATE; 
这 个 查询 将 会 挂 起 , 直到 第 一 个 事务 释放 第 1 行 的 锁 。 这 个 行为 对 于 基于 语句 的 复制 (将 
在 第 10 章 讨 论 ) 的 正常 运行 来 说 是 必要 的 。” 


就 像 这 个 例子 显示 的 ， 即 使 使 用 了 索引 ，InnoDB 也 可 能 锁 住 一 些 不 需要 的 数据 。 如 果 
不 能 使 用 索引 查找 和 锁定 行 的 话 问题 可 能 会 更 精 糕 ，MySQL 会 做 全 表 扫 描 并 锁 住 所 有 
的 行 ， 而 不 管 是 不 是 需要 。 


关于 InnoDB、 索 引 和 和 锁 有 一 些 很 少 有 人 知道 的 细 市 : InnoDB 在 二 级 索引 上 使 用 共享 
( 读 ) 锁 ， 但 访问 主键 索引 需要 排他 (S) 锁 。 这 消除 了 使 用 覆盖 索引 的 可 能 性 ， 并 且 
使 得 SELECT FOR UPDATE k LOCK IN SHARE MODE 或 非 锁定 查询 要 慢 很 多 。 


注 20 : 尽管 理论 上 使 用 基于 行 的 日 志 模 式 时 ， 在 某 些 事务 隔离 级 别 下 ， 服 务 器 不 再 需要 锁定 行 ， 但 实践 
中 经 常 发 现 无 法 实现 这 种 预期 的 行为 。 直 到 MySQL 5.6.3 版 本 ， 在 read-commit 隔离 级 别 和 基于 行 
的 日 志 模式 下 ， 这 个 例子 还 是 会 导致 锁 。 
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5.4 索引 案例 学 习 


理解 索引 最 好 的 办 法 是 结合 示例 ， 所 以 这 里 准备 了 一 个 索引 的 案例 。 


假设 要 设计 一 个 在 线 约会 网 站 ， 用 户 信 息 表 有 很 多 列 ， 包 括 国家 、 地 区 、 城 市 、 性 别 、 
眼睛 颜色 ， 等 等 。 网 站 必须 支持 上 面 这 些 特 征 的 各 种 组 合 来 搜索 用 户 ， 还 必须 允许 根据 
用 户 的 最 后 在 线 时 间 、 基 他 会 员 对 用 户 的 评分 等 对 用 户 进 行 排序 并 对 结果 进行 限制 。 如 
何 设 计 索 引 满足 上 面 的 复杂 需求 呢 ? 


出 人 意料 的 是 第 一 件 需要 考虑 的 事情 是 需要 使 用 索引 来 排序 ， 还 是 先 检索 数据 再 排序 。 
使 用 索引 排序 会 严格 限制 索引 和 查询 的 设计 。 例 如 ， 如 果 和 希望 使 用 索引 做 根据 其 他 会 员 
对 用 户 的 评分 的 排序 ， 则 WHERE 条 件 中 的 age BETWEEN 18 AND 25 就 无 法 使 用 索引 。 如 
果 MySQL 使 用 某 个 索引 进行 范围 查询 ， 也 就 无 法 再 使 用 另 一 个 索引 (或 者 是 该 索引 的 
后 续 字 段 ) 进行 排序 了 。 如 果 这 是 很 常见 的 WHERE 条件， 那么 我 们 当然 就 会 认为 很 多 查 
询 需 要 做 排序 操作 (例如 文件 排序 filesort) 。 


5.4.1 支持 多 种 过 滤 条 件 
现在 需要 看 看 哪些 列 拥 有 很 多 不 同 的 取 值 ， 哪 些 列 在 WHERE 子 句 中 出 现 得 最 频繁 。 在 有 
更 多 不 同 值 的 列 上 创建 索引 的 选择 性 会 更 好 。 一 般 来 说 这 样 做 都 是 对 的 ， 因 为 可 以 让 
MySQL 更 有 效 地 过 滤 掉 不 需要 的 行 。 


country 列 的 选择 性 通常 不 高 ， 但 可 能 很 多 查询 都 会 用 到 。sex 列 的 选择 性 肯定 很 低 ， 但 
也 会 在 很 多 查询 中 用 到 。 所 以 考虑 到 使 用 的 频率 ， 还 是 建议 在 创建 不 同 组 合 索 引 的 时 候 
将 (sex, country) 列 作为 前 级 。 


但 根据 传统 的 经 验 不 是 说 不 应 该 在 选择 性 低 的 列 上 创建 索引 的 吗 ? 那 为 什么 这 里 要 将 两 
个 选择 性 都 很 低 的 字段 作为 索引 的 前 缀 列 ? 我 们 的 脑子 坏 了 ?3 


我 们 的 脑子 当然 没 坏 。 这 么 做 有 两 个 理由 : 第 一 反 ， 如 前 所 述 几 乎 所 有 的 查询 都 会 用 到 
sex 列 。 前 面 曾 提 到 ， 几 乎 每 一 个 查询 都 会 用 到 sex 列 ， 其 至 会 把 网 站 设计 成 每 次 都 只 
能 按 某 一 种 性 别 搜索 用 户 。 更 重要 的 一 点 是 ， 索 引 中 加 上 这 一 列 也 没有 坏处 ， 即 使 查询 
没有 使 用 sex 列 也 可 以 通过 下 面 的 “诀窍 ” 绕 过 ，。 


这 个 “诀窍 ”就 是 : 如 果 某 个 查询 不 限制 性 别 ， 那 么 可 以 通过 在 查询 条 件 中 新 增 AND 
SEX IN('m'，'f') 来 让 MySQL 选择 该 索引 。 这 样 写 并 不 会 过 滤 任 何 行 ， 和 没有 这 个 条 件 
时 返回 的 结果 相同 。 但 是 必须 加 上 这 个 列 的 条 件 ，MySQL 才能 够 匹配 索引 的 最 左前 级 。 
这 个 “诀窍 ”在 这 类 场景 中 非常 有 效 , 但 如 果 列 有 太 多 不 同 的 值 , 就 会 让 IN() 列表 太 长 ， 
这 样 做 就 不 行 了 。 
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这 个 案例 显示 了 一 个 基本 原则 : 考虑 表 上 所 有 的 选项 。 当 设计 索引 时 ， 不 要 只 为 现 有 的 
查询 考虑 需要 哪些 索引 ， 还 需要 考虑 对 查询 进行 优化 。 如 果 发 现 菜 些 查询 需要 创建 新 索 
引 ， 但 是 这 个 索引 又 会 降低 另 一 些 查询 的 效率 ， 那 么 应 该 想 一 下 是 否 能 优化 原来 的 查询 。 
应 该 同时 优化 碍 询 和 索引 以 找到 最 佳 的 平衡 ， 而 不 是 闭门造车 去 设计 最 完美 的 索引 。 


接 下 来 ， 需 要 考虑 其 他 常见 WHERE 条 件 的 组 合 ， 并 需要 了 解 哪些 组 合 在 没有 合适 索引 的 
情况 下 会 很 慢 。(sex，country, age) 上 的 索引 就 是 一 个 很 明显 的 选择 ， 另 外 很 有 可 能 还 
需要 (sex, country, region, age) 和 (sex, country, region, city, age) 这 样 的 组 合 索引 。 


这 样 就 会 需要 大 量 的 索引 。 如 果 想 尽 可 能 重用 索引 而 不 是 建立 大 量 的 组 合 索引 ， 可 以 
使 用 前 面 提 到 的 IN() 的 技巧 来 避免 同时 需要 (sex, country, age) 和 (sex, country, 
region, age) 的 索引 。 如 果 没 有 指定 这 个 字段 搜索 ， 就 需要 定义 一 个 全 部 国家 列表 ， 或 
者 国家 的 全 部 地 区 列表 ， 来 确保 索引 前 级 有 同样 的 约束 〈 组 合 所 有 国家 、 地 区 、 人 性 别 将 
会 是 一 个 非常 大 的 条 件 )。 


这 些 索引 将 满足 大 部 分 最 常见 的 搜索 查询 ， 但 是 如 何 为 一 些 生僻 的 搜索 条 件 (比如 has_ 
pictures, eye coLor、hair color 和 education) 来 设计 索引 呢 ? 这 些 列 的 选择 性 高 、 
使 用 也 不 频繁 ， 可 以 选择 忽略 它们 ， 让 MySQL 多 扫描 一 些 额 外 的 行 妈 可 。 男 一 个 可 选 
的 方法 是 在 age 列 的 前 面 加 上 这 些 列 ， 在 查询 时 使 用 前 面 提 到 过 的 IN() 技术 来 处 理 搜索 
时 没有 指定 这 些 列 的 场景 。 


你 可 能 已 经 注意 到 了 ， 我 们 一 直 将 age 列 放 在 索引 的 最 后 面 。age 列 有 什么 特殊 的 地 方 
吗 ? 为 什么 要 放 在 索引 的 最 后 ? 我 们 总 是 尽 可 能 让 MySQL 使 用 更 多 的 索引 列 ， 因 为 查 
询 只 能 使 用 索引 的 最 左前 级 ， 直 到 过 到 第 一 个 范围 条 件 列 。 前 面 提 到 的 列 在 WHERE 子 名 
中 都 是 等 于 条 件 , 但 是 age 列 则 多 半 是 范围 查询 (例如 查找 年 龄 在 18 ~ 25 岁 之 间 的 人 )。 


当然 ， 也 可 以 使 用 IN( ) RNS AA, PsA SA IN(18, 19, 20, 21, 
22, 23, 24, 25), 但 不 是 所 有 的 范围 查询 都 可 以 转换 。 这 里 描述 的 基本 原则 是 ， 尽 可 能 
将 需要 做 范围 查询 的 列 放 到 索引 的 后 面 ， 以 便 优 化 器 能 使 用 尽 可 能 多 的 索引 列 。 

前 面 提 到 可 以 在 索引 中 加 入 更 多 的 列 ， 并 通过 IN() 的 方式 覆盖 那些 不 在 WHERE 子 句 中 的 
列 。 但 这 种 技巧 也 不 能 滥用 ， 否 则 可 能 会 带 来 麻烦 。 因 为 每 额外 增加 一 个 IN() 条 件 ， 优 
化 器 需要 做 的 组 合 都 将 以 指数 形式 增加 ， 最 终 可 能 会 极 大 地 降低 查询 性 能 。 考 虑 下 面 的 
WHERE 子 句 : 


WHERE eye color IN('brown', ‘blue’, ‘hazel’ ) 
AND hair color IN('black','red', ‘blonde’, ‘brown’ ) 
AND sex IN('M','F') 


优化 嚣 则 会 转化 成 4x3 x2 = 24 种 组 合 ， 执 行 计划 需要 检查 WHERE 子 句 中 所 有 的 24 种 
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组 合 。 对 于 MySQL Rik, 24 种 组 合并 不 是 很 压 张 ， 但 如 果 组 合 数 达 到 上 千 个 则 需要 特 
别 小 心 。 老 版 本 的 MySQL 在 IN() 组 合 条 件 过 多 的 时 候 会 有 很 多 问题 。 查 询 优化 可 能 需 
要 花 很 多 时 间 ， 并 消耗 大 量 的 内 存 。 新 版 本 的 MySQL 在 组 合 数 超过 一 定数 量 后 就 不 再 
进行 执行 计划 评估 了 ， 这 可 能 会 导致 MySQL 不 能 很 好 地 利用 索引 。 


5.4.2 避免 多 个 范围 条 件 


假设 我 们 有 一 个 last_online 列 并 希望 通过 下 面 的 查询 显示 在 过 去 几 周 上 线 过 的 用 户 : 


WHERE eye color IN('brown','blue','hazel') 
AND hair color IN('‘black','red', ‘blonde’, ‘brown’ ) 


AND sex IN('M','F') 
AND last_online > DATE_SUB(NOW(), INTERVAL 7 DAY) 
AND age BETWEEN 18 AND 25 


什么 是 范围 条 件 ? 


从 EXPLAIN 的 输出 很 难 区 分 MySQL 是 要 查询 范围 值 ， 还 是 查询 列表 值 。EXPLAIN 
使 用 同样 的 词 “range” 来 描述 这 两 种 情况 。 例 如 ， 从 type 列 来 看 ，MySQL 会 把 
下 面 这 种 查询 当 作 是 “range 类 型 : 


mysql> EXPLAIN SELECT actor id FROM sakila.actor 
-> WHERE actor id > 45\G 
kkk kkk roy Eok kk 
id: 1 
select_type: SIMPLE 
table: actor 
type: range 


但 是 下 面 这 条 查询 呢 ? 


mysql> EXPLAIN SELECT actor_id FROM sakila.actor 
-> WHERE actor_id IN(1, 4, 99)\G 
HK KAKAKRAK EKER KA RARER KAR K 人 roy PEES Ra RR a kkk kkk kk 
id: 1 
select_type: SIMPLE 
table: actor 
type: range 


从 EXPLAIN 的 结果 是 无 法 区 分 这 两 者 的 ， 但 可 以 从 值 的 范围 和 多 个 等 于 条 件 来 得 出 
不 同 。 在 我 们 看 来 ， 第 二 个 查询 就 是 多 个 等 值 条 件 查询 。 


我 们 不 是 挑 别 : 这 两 种 访问 效率 是 不 同 的 。 对 于 范围 条 件 查询 ，MySQL 无 法 再 使 
用 范围 列 后 面 的 其 他 索引 列 了 ,但 是 对 于 “多 个 等 值 条 件 查询 ” 则 没有 这 个 限制 。 
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这 个 查询 有 一 个 问题 : 它 有 两 个 范围 条 件 ，Last_onLine 列 和 age 列 ，MySQL 可 以 使 用 
last_online 列 索 引 或 者 age 列 索引 ， 但 无 法 同时 使 用 它们 。 


如 果 条 件 中 只 有 Last_ontLine 而 没有 age， 和 那么 我 们 可 能 考虑 在 索引 的 后 面 加 上 last 
online 列 。 这 里 考虑 如 果 我 们 无 法 把 age 字段 转换 为 一 个 IN ( ) 的 列表 ， 并 且 仍 要 求 对 
于 同时 有 last_online 和 age 这 两 个 维度 的 范围 查询 的 速度 很 快 ， 那 该 怎么 办 ? SRE, 
很 遗憾 没有 一 个 直接 的 办 法 能 够 解决 这 个 问题 。 但 是 我 们 能 够 将 其 中 的 一 个 范围 查询 转 
换 为 一 个 简单 的 等 值 比较 。 为 了 实现 这 一 点 ， 我 们 需要 事先 计算 好 一 个 active 列 ， 这 个 
字段 由 定时 任务 来 维护 。 当 用 户 每 次 登录 时 ， 将 对 应 值 设置 为 1， 并 且 将 过 去 连续 七 天 
未 曾 登 录 的 用 户 的 值 设置 为 0。 


这 个 方法 可 以 让 MySQL 使 用 (active, sex, country, age) 索引 。active 列 并 不 是 完 
精确 的 ， 但 是 对 于 这 类 查询 来 说 ， 对 精度 的 要 求 也 没有 那么 高 。 如 果 需 要 精确 数据 ， 可 
以 把 Last_online 列 放 到 WHERE 子 句 ， 但 不 加 入 到 索引 中 。 这 和 本 章 前 面 通过 计算 URL 
哈 希 值 来 实现 URL 的 快速 查找 类 似 。 所 以 这 个 查询 条 件 没 法 使 用 任何 索引 ， 但 因为 这 
个 条 件 的 过 滤 性 不 高 ， 即 使 在 索引 中 加 入 该 列 也 没有 太 大 的 帮助 。 换 个 角度 来 说 ， 缺 乏 
合适 的 索引 对 该 查询 的 影响 也 不 明显 。 


到 目前 为 止 ， 我 们 可 以 看 到 : 如 果 用 户 希 望 同 时 看 到 活跃 和 不 活跃 的 用 户 ， 可 以 在 查 
询 中 使 用 IN() 列表 。 我 们 已 经 加 入 了 很 多 这 样 的 列表 ， 但 另外 一 个 可 选 的 方案 就 只 能 
是 为 不 同 的 组 合 列 创建 单独 的 索引 。 至 少 需要 建立 如 下 的 索引 : (active, sex, country, 
age), (active, country, age), (sex, country, age) 和 (country, age) 。 这 些 索 引 对 某 
个 具体 的 查询 来 说 可 能 都 是 更 优化 的 ， 但 是 考虑 到 索引 的 维护 和 额外 的 空间 占用 的 代价 ， 
这 个 可 选 方案 就 不 是 一 个 好 策略 了 。 


在 这 个 案例 中 ， 优 化 器 的 特性 是 影响 索引 策略 的 一 个 很 重要 的 因素 。 如 果 未 来 版 本 的 
MySQL 能 够 实现 松散 索引 扫描 ， 就 能 在 一 个 索引 上 使 用 多 个 苑 围 条 件 ， 那 也 就 不 需要 
为 上 面 考虑 的 这 类 查询 使 用 IN() 列表 了 。 


5.4.3 优化 排序 


在 这 个 学 习 案 例 中 ， 最 后 要 介绍 的 是 排序 。 使 用 文件 排序 对 小 数据 集 是 很 快 的 ， 但 如 采 
一 个 查询 匹配 的 结果 有 上 百 万 行 的 话 会 怎样 ? 例如 如 果 WHERE FARA sex 列 ， 如 何 排 
序 ? 


对 于 那些 选择 性 非常 低 的 列 ， 可 以 增加 一 些 特殊 的 索引 来 做 排序 。 例 如 ， 可 以 创建 (sex， 
rating) 索引 用 于 下 面 的 查询 : 
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mysql> SELECT <cols> FROM profiles WHERE sex='M' ORDER BY rating LIMIT 10; 
这 个 查询 同时 使 用 了 ORDER BY 和 LIMIT， 如 果 没 有 索引 的 话 会 很 慢 。 


即使 有 索引 ， 如 果 用 户 界 面 上 需要 翻 页 ， 并 且 翻 页 翻 到 比较 靠 后 时 查询 也 可 能 非常 慢 。 
下 面 这 个 查询 就 通过 ORDER BY 和 LIMIT 偏 移 量 的 组 合 翻 页 到 很 后 面 的 时 候 : 


mysql> SELECT <cols> FROM profiles WHERE sex='M' ORDER BY rating LIMIT 100000, 10; 


无 论 如 何 创 建 索 引 ， 这 种 查询 都 是 个 严重 的 问题 。 因 为 随 着 偏 移 量 的 增加 ，MySQL 需 
要 花费 大 量 的 时 间 来 扫描 需要 丢弃 的 数据 。 反 范式 化 、 预 先 计算 和 缓存 可 能 是 解决 这 类 
查询 的 仅 有 策略 。 一 个 更 好 的 办 法 是 限制 用 户 能 够 翻 页 的 数量 ， 实 际 上 这 对 用 户 体验 的 
影响 不 大 ， 因 为 用 户 很 少 会 真正 在 乎 搜索 结果 的 第 10 000 页 。 


优化 这 类 索引 的 另 一 个 比较 好 的 策略 是 使 用 延迟 关联 ， 通 过 使 用 覆盖 索引 查询 返回 需要 
的 主键 ， 再 根据 这 些 主键 关联 原 表 获 得 需要 的 行 。 这 可 以 减少 MySQL 扫描 那些 需要 丢 
弃 的 行 数 。 下 面 这 个 查询 显示 了 如 何 高 效 地 使 用 (sex, rating) 索引 进行 排序 和 分 页 : 
mysql> SELECT <cols> FROM profiles INNER JOIN ( 
-> SELECT <primary key cols> FROM profiles 


-> WHERE x.sex='M' ORDER BY rating LIMIT 100000, 10 
-> ) AS x USING(<primary key cols>); 


5.5 维护 索引 和 表 


即使 用 正确 的 类 型 创建 了 表 并 加 上 了 合适 的 索引 ， 工 作 也 没有 结束 : 还 需要 维护 表 和 索 
引 来 确保 它们 都 正常 工作 。 维 护 表 有 三 个 主要 的 目的 : 找到 并 修复 损坏 的 表 ， 维 护 准 确 
的 索引 统计 信息 ， 减 少 碎片 。 


5.5.1 找到 并 修复 损坏 的 表 

表 损 坏 (corruption) 是 很 糟糕 的 事情 。 对 于 MyISAM 存储 引擎 ， 表 损坏 通常 是 系统 月 
溃 导 致 的 。 其 他 的 引擎 也 会 由 于 硬件 问题 、MySQL 本 身 的 缺陷 或 者 操作 系统 的 问题 导 
致 索引 损坏 。 


损坏 的 索引 会 导致 查询 返回 错误 的 结果 或 者 莫须有 的 主键 冲突 等 问题 ， 严 重 时 其 至 还 会 
导致 数据 库 的 崩 涡 。 如 果 你 遇 到 了 古怪 的 问题 一 一 例如 一 些 不 应 该 发 生 的 错误 一 一 可 以 
尝试 运行 CHECK TABLE 来 检查 是 否 发 生 了 表 损 坏 (注意 有 些 存 储 引 擎 不 支持 该 命令 ; 而 
有 些 引 擎 则 支持 以 不 同 的 选项 来 控制 完全 检查 表 的 方式 )。CHECK TABLE 通常 能 够 找 出 大 
多 数 的 表 和 索引 的 错误 。 
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可 以 使 用 REPAIR TABLE 命令 来 修复 损坏 的 表 , 但 同样 不 是 所 有 的 存储 引擎 都 支持 该 命令 。 
如 采 存 储 5[ 擎 不 支持 ， 也 可 通过 一 个 不 做 任何 操作 (no-op) 的 ALTER 操作 来 重建 表 ， 例 
如 修改 表 的 存储 引擎 为 当前 的 引擎 。 下 面 是 一 个 针对 InnoDB 表 的 例子 : 


mysql> ALTER TABLE innodb tb] ENGINE=INNODB; 


此 外 , 也 可 以 使 用 一 些 存储 引擎 相关 的 离线 工具 , 例如 myisamcpnks 或 者 将 数据 导出 一 份 ， 
然后 再 重新 导入 。 不 过 ， 如 果 损 坏 的 是 系统 区 域 ， 或 者 是 表 的 “ 行 数据 ”区 域 ， 而 不 是 
索引 ， 那 么 上 面 的 办 法 就 没有 用 了 。 在 这 种 情况 下 ， 可 以 从 备份 中 恢复 表 ， 或 者 尝试 从 
损坏 的 数据 文件 中 尽 可 能 地 恢复 数据 。 


如 果 InnoDB 引擎 的 表 出 现 了 损坏 ， 那 么 一 定 是 发 生 了 严重 的 错误 ， 需 要 立刻 调查 一 下 
原因 。InnoDB 一 般 不 会 出 现 损 坏 。InnoDB 的 设计 保证 了 它 并 不 容易 被 损坏 。 如 果 发 生 
损坏 ， 一 般 要 么 是 数据 库 的 硬件 问题 例如 内 存 或 者 磁盘 问题 (有 可 能 )， 要 么 是 由 于 数 
据 库 管 理 员 的 错误 例如 在 MySQL 外 部 操作 了 数据 文件 (有 可 能 )， 抑 或 是 InnoDB 本 身 
的 缺陷 (不 太 可 能 )。 常 见 的 类 似 错误 通 常 是 由 于 尝试 使 用 rsync 备份 InnoDB 导致 的 。 
不 存在 什么 查询 能 够 让 InnoDB 表 损 坏 ， 也 不 用 担心 暗 处 有 “陷阱 ”。 如 果 某 条 查询 导致 
InnoDB 数据 的 损坏 ， 那 一 定 是 遇 到 了 bug， 而 不 是 查询 的 问题 。 


如 果 遇 到 数据 损坏 ， 最 重要 的 是 找 出 是 什么 导致 了 损坏 ， 而 不 只 是 简单 地 人 和 修复， 否则 
很 有 可 能 还 会 不 断 地 损坏 。 可 以 通过 设置 innodb_force_recovery 参数 进入 InnoDB 的 
强制 恢复 模式 来 修复 数据 ， 更 多 细节 可 以 参考 MySQL 手册 。 另 外， 还 可 以 使 用 开源 的 
InnoDB 数据 恢复 工具 箱 (InnoDB Data Recovery Toolkit) 直接 从 InnoDB 数据 文件 恢复 出 
数据 (下 载 地 址 : http://www percona.com/software/mysql-innodb-data-recovery-tools/) . 


5.5.2 更 新 索引 统计 信息 

MySQL 的 查询 优化 器 会 通过 两 个 API 来 了 解 存 储 引 警 的 索引 值 的 分 布 信息 ， 以 决定 
如 何 使 用 索引 。 第 一 个 API 是 records in range()， 通 过 向 存储 引擎 传人 两 个 边界 
值 获取 在 这 个 范围 大 概 有 多 少 条 记录 。 对 于 某 些 存储 引擎 ， 该 接口 返回 精确 值 ， 例 如 
MyISAM ; 但 对 于 另 一 些 存储 引 警 则 是 一 个 估算 值 Ahn InnoDB., 


第 二 个 API 是 info()， 该 接口 返回 各 种 类 型 的 数据 ， 包 括 索 引 的 基数 〈 每 个 键 值 有 多 少 
条 记录 )。 


如 采 存 储 引 擎 同 优化 璐 提供 的 扫描 行 数 信息 是 不 准确 的 数据 ， 或 者 执行 计划 本 身 太 复 杂 
以 致 无 法 准确 地 获取 各 个 阶段 匹配 的 行 数 ， 那 么 优化 器 会 使 用 索引 统计 信息 来 估算 扫描 
行 数 。MySQL 优化 器 使 用 的 是 基于 成 本 的 模型 ， 而 衡量 成 本 的 主要 指标 就 是 一 个 查询 
需要 扫 拉 多 少 行 。 如 果 表 没有 统计 信息 ， 或 者 统计 信息 不 准确 ， 优 化 器 就 很 有 可 能 做 出 
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错误 的 决定 。 可 以 通过 运行 ANALYZE TABLE 来 重新 生成 统计 信息 解决 这 个 问题 。 


每 种 存储 引擎 实现 索引 统计 信息 的 方式 不 同 ， 所 以 需要 进行 ANALYZE TABLE 的 频率 也 因 
不 同 的 引擎 而 不 同 ， 每 次 运行 的 成 本 也 不 同 : 


。 Memory 引擎 根本 不 存储 索引 统计 信息 。 

。 MyISAM 将 索引 统计 信息 存储 在 磁盘 中 ，ANALYZE TABLE 需要 进行 一 次 全 索引 扫描 
来 计算 索引 基数 。 在 整个 过 程 中 需要 锁 表 。 

e 直到 MySQL 5.5 版 本 ，InnoDB 也 不 在 磁盘 存储 索引 统计 信息 ， 而 是 通过 随机 的 索 
引 访问 进行 评估 并 将 其 存储 在 内 存 中 。 


可 以 使 用 SHOW INDEX FROM 命令 来 查看 索引 的 基数 (Cardinality)。 例 如 : 


mysql> SHOW INDEX FROM sakila.actor\G 
HAKKAR KAR KAR k kk kk k kkk kkk kkk 4 Yow EEEE 2 2K a 2 Ek k k kK k k k kkk kkk 
Table: actor 
Non_unique: 0 
Key_name: PRIMARY 
Seq_in_index: 1 
Column_name: actor_id 
Collation: A 
Cardinality: 200 
Sub_part: NULL 
Packed: NULL 
Null: 
Index_type: BTREE 
Comment: 
okb 2 oy Pokk kk kk kkk 
Table: actor 
Non_unique: 1 
Key name: idx_actor_last_name 
Seq_in_ index: 1 
Column_name: last_name 
Collation: A 
Cardinality: 200 
Sub_part: NULL 
Packed: NULL 
Null: 
Index_type: BTREE 
Comment : 


这 个 命令 输出 了 很 多 关于 索引 的 信息 ， 在 MySQL 手册 中 对 上 面 每 个 字段 的 含义 都 有 
详细 的 解释 。 这 里 需要 特别 提 及 的 是 索引 列 的 基数 (CardinaLity)， 其 显示 了 存储 
引擎 估算 索引 列 有 多 少 个 不 同 的 取 值 。 在 MySQL 5.0 和 更 新 的 版 本 中 ， 还 可 以 通过 
INFORMATION_SCHEMA. STATISTICS 表 很 方便 地 查询 到 这 些 信 息 。 例 如 基于 INFORMATION_ 
SCHEMA 的 表 ， 可 以 编写 一 个 查询 给 出 当前 选择 性 比较 低 的 索引 。 需 要 注意 的 是 ， 如 采 服 
务 器 上 的 库 表 非 常 多 ， 则 从 这 里 获取 元 数据 的 速度 可 能 会 非常 慢 ， 而 且 会 给 MySQL 市 
来 额外 的 压力 。 
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InnoDB 的 统计 信息 值得 深入 研究 。InnoDB 引擎 通过 抽样 的 方式 来 计算 统计 信息 ， 首 先 
随机 地 读 取 少 量 的 索引 页 面 ， 然 后 以 此 为 样本 计算 索引 的 统计 信息 。 在 老 的 InnoDB 版 
本 中 ， 样 本 页 面 数 是 8， 新 版 本 的 InnoDB 可 以 通过 参数 innodb stats_sample_pages 来 
设置 样本 页 的 数量 。 设 置 更 大 的 值 ， 理 论 上 来 说 可 以 帮助 生成 更 准确 的 索引 信息 ， 特 别 
是 对 于 某 些 超 大 的 数据 表 来 说 ， 但 具体 设置 多 大 合适 依赖 于 具体 的 环境 。 


InnoDB 会 在 表 首 次 打开 ， 或 者 执行 ANALYZE TABLE， 抑 或 表 的 大 小 发 生 非 常 大 的 变化 
(大 小 变化 超过 十 六 分 之 一 或 者 新 插入 了 20 亿 行 都 会 触发 ) 的 时 候 计 算 索 引 的 统计 信息 。 


InnoDB 在 打开 某 些 INFORMATION_SCHEMA 表 ， 或 者 使 用 SHOW TABLE STATUS 和 SHOW 
INDEX， 抑 或 在 MySQL 客户 端 开启 自动 补 全 功能 的 时 候 都 会 触发 索引 统计 信息 的 更 新 。 
如 果 服 务 器 上 有 大 量 的 数据 ， 这 可 能 就 是 个 很 严重 的 问题 ， 尤 其 是 当 I/O 比较 慢 的 时 候 。 
客户 端 或 者 监控 程序 触发 索引 信息 采样 更 新 时 可 能 会 导致 大 量 的 锁 ， 并 给 服务 器 带 来 很 
多 的 额外 压力 ， 这 会 让 用 户 因为 启动 时 间 漫 长 而 诅 形 。 只 要 SHOW INDEX 查看 索引 统计 信 
息 ， 就 一 定 会 触发 统计 信息 的 更 新 。 可 以 关闭 innodb_stats_on_metadata 参数 来 避免 上 
面 提 到 的 问题 。 


如 果 使 用 Percona 版 本 ， 使 用 的 就 是 XtraDB 引擎 而 不 是 原生 的 InnoDB 引擎 ， 那 么 可 以 
通过 innodb_stats auto update 参数 来 禁止 通过 自动 采样 的 方式 更 新 索引 统计 信息 ， 这 
时 需要 手动 执行 ANALYZE TABLE 命令 来 更 新 统计 信息 。 如 果 某 些 查询 执行 计划 很 不 稳定 
的 话 ， 可 以 用 该 办 法 固化 查询 计划 。 我 们 当初 引入 这 个 参数 也 正 是 为 了 解决 一 些 客户 的 
这 种 问题 。 


如 果 想 要 更 稳定 的 执行 计划 ， 并 在 系统 重启 后 更 快 地 生成 这 些 统计 信息 ， 那 么 可 以 使 用 
系统 表 来 持久 化 这 些 索 引 统 计 信 息 。 甚 至 还 可 以 在 不 同 的 机 器 间 迁 移 索 引 统计 信息 ， 这 
样 新 环境 启动 时 就 无 须 再 收集 这 些 数 据 。 在 Percona 5.1 版 本 和 官方 的 5.6 版 本 都 已 经 加 
入 这 个 特性 。 在 Percona 版 本 中 通过 innodb use sys stats table 参数 可 以 启用 该 特性 ， 
官方 5.6 版 本 则 通过 innodb analyze is persistent 参数 控制 。 


一 旦 关闭 索引 统计 信息 的 自动 更 新 ， 那 么 就 需要 周期 性 地 使 用 ANALYZE TABLE 来 手动 更 
新 。 人 否则 ， 索 引 统计 信息 就 会 永远 不 变 。 如 果 数 据 分 布 发 生 大 的 变化 ， 可 能 会 出 现 一 些 
很 糟糕 的 执行 计划 。 


5.5.3 减少 索引 和 数据 的 碎片 


B-Tree 索引 可 能 会 碎片 化 ， 这 会 降低 查询 的 效率 。 碎 片 化 的 索引 可 能 会 以 很 差 或 者 无 序 
的 方式 存储 在 磁盘 上 。 
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根据 设计 ，B-Tree 需要 随机 磁盘 访问 才能 定位 到 叶子 页 ， 所 以 随机 访问 是 不 可 避免 的 。 
然而 ， 如 果 叶 子 页 在 物理 分 布 上 是 顺序 且 紧 密 的 ， 那 么 查询 的 性 能 就 会 更 好 。 人 否则 ， 对 
于 范围 查询 、 索 引 徐 盖 扫描 等 操作 来 说 ， 速 度 可 能 会 降低 很 多 倍 ; UTR BRA 
一 点 更 加 明显 。 


表 的 数据 存储 也 可 能 碎片 化 。 然 而 ， 数 据 存储 的 碎片 化 比索 引 更 加 复杂 。 有 三 种 类 型 的 
数据 碎片 。 


行 碎片 (Row fragmentation) 
这 种 碎片 指 的 是 数据 行 被 存储 为 多 个 地 方 的 多 个 片段 中 。 即 使 查询 只 从 索引 中 访问 
一 行 记录 ， 行 碎片 也 会 导致 性 能 下 降 。 

行 间 碎片 (Intra-row fragmentation) 
行 间 碎 片 是 指 逻 辑 上 顺序 的 页 ， 或 者 行 在 磁盘 上 不 是 顺序 存储 的 。 行 间 碎 片 对 诸如 
全 表 扫 描 和 聚 徐 索引 扫描 之 类 的 操作 有 很 大 的 影响 ， 因 为 这 些 操作 原本 能 够 从 磁盘 
上 顺序 存储 的 数据 中 获 益 。 

剩余 空间 碎片 (Free space fragmentation) 
剩余 空间 碎片 是 指数 据 页 中 有 大 量 的 空余 空间 。 这 会 导致 服 务 器 读 取 大 量 不 需要 的 
数据 ， 从 而 造成 浪费 。 


对 于 MyISAM 表 ， 这 三 类 碎片 化 都 可 能 发 生 。 但 InnoDB 不 会 出 现 短 小 的 行 碎片 ， 
InnoDB 会 移动 短小 的 行 并 重 写 到 一 个 片段 中 。 


可 以 通过 执行 OPTIMIZE TABLE 或 者 导出 再 导入 的 方式 来 重新 整理 数据 。 这 对 多 数 存储 引 
擎 都 是 有 效 的 。 对 于 一 些 存储 引擎 如 MyISAM， 可 以 通过 排序 算法 重建 索引 的 方式 来 消 
除 碎片 。 老 版 本 的 InnoDB 没有 什么 消除 碎片 化 的 方法 。 不 过 最 新 版 本 InnoDB 新 增 了 “在 
线 ” 添 加 和 删除 索引 的 功能 ， 可 以 通过 先 删 除 ， 然 后 再 重新 创建 索引 的 方式 来 消除 索引 
的 碎片 化 。 


对 于 那些 不 支持 OPTIMIZE TABLE 的 存储 引擎 ， 可 以 通过 一 个 不 做 任何 操作 (no-op) 的 
ALTER TABLE 操作 来 重建 表 。 只 需要 将 表 的 存储 引擎 修改 为 当前 的 引擎 即 可 : 


mysql> ALTER TABLE <table> ENGINE=<engine>; 


对 于 开启 了 expand_fast_index_creation 参数 的 Percona Server， 按 这 种 方式 重建 表 ， 
则 会 同时 消除 表 和 索引 的 碎片 化 。 但 对 于 标准 版 本 的 MySQL 则 只 会 消除 表 (实际 上 是 
RES) 的 碎片 化 。 可 用 先 删除 所 有 索引 ， 然 后 重建 表 ， 最 后 重新 创建 索引 的 方式 模 
拟 Percona Server 的 这 个 功能 。 


应 该 通过 一 些 实 际 测量 而 不 是 随意 假设 来 确定 是 否 需 要 消除 索引 和 表 的 碎片 化 。Percona 
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的 XtraBackup 有 个 --stats 参数 以 非 备 份 的 方式 运行 ， 而 只 是 打印 索引 和 表 的 统计 情况 ， 
包括 页 中 的 数据 量 和 空余 空间 。 这 可 以 用 来 确定 数据 的 碎片 化 程度 。 另 外 也 要 考虑 数据 
是 否 已 经 达到 稳定 状态 ， 如 果 你 进行 碎片 整理 将 数据 压缩 到 一 起 ， 可 能 反而 会 导致 后 续 
的 更 新 操作 触发 一 系列 的 页 分 裂 和 重组 ， 这 会 对 性 能 造成 不 良 的 影响 (直到 数据 再 次 达 
到 新 的 稳定 状态 )。 


5.6 总 结 


通过 本 章 可 以 看 到 ， 索 引 是 一 个 非常 复杂 的 话题 ! MySQL 和 存储 引擎 访问 数据 的 方式 ， 
加 上 索引 的 特性 ， 使 得 索引 成 为 一 个 影响 数据 访问 的 有 力 而 灵活 的 工作 (无 论 数据 是 在 
磁盘 中 还 是 在 内 存 中 )。 


在 MySQL 中， 大 多 数 情 况 下 都 会 使 用 B-Tree 索引 。 其 他 类 型 的 索引 大 多 只 适用 于 特殊 
的 目的 。 如 果 在 合适 的 场景 中 使 用 索引 ， 将 大 大 提高 查询 的 响应 时 间 。 本 章 将 不 再 介绍 
更 多 这 方面 的 内 容 了 ， 最 后 值得 总 的 回顾 一 下 这 些 特性 以 及 如 何 使 用 B-Tree 索引 。 


在 选择 索引 和 编写 利用 这 些 索 引 的 查询 时 ， 有 如 下 三 个 原则 始终 需要 记 住 : 


1. 单行 访问 是 很 慢 的 。 特 别 是 在 机 械 硬 盘存 储 中 (SSD 的 随机 1/O 要 快 很 多 ， 不 过 这 
一 点 仍然 成 立 )。 如 果 服 务 器 从 存储 中 读 取 一 个 数据 块 只 是 为 了 获取 其 中 一 行 ， 那 么 
就 浪费 了 很 多 工作 。 最 好 读 取 的 块 中 能 包含 尽 可 能 多 所 需要 的 行 。 使 用 索引 可 以 创 
建 位 置 引 用 以 提升 效率 。 

2. 按 顺 序 访问 范围 数据 是 很 快 的 , 这 有 两 个 原因 。 第 一 ,顺序 IO 不 需要 多 次 磁盘 寻 道 ， 
所 以 比 随机 1/O 要 快 很 多 (特别 是 对 机 械 硬盘 )。 第 二 ， 如 果 服 务 器 能 够 按 需 要 顺序 
读 取 数 据 ， 那 么 就 不 再 需要 额外 的 排序 操作 ， 并 且 GROUP BY 查询 也 无 须 再 做 排序 和 
将 行 按 组 进行 聚合 计算 了 。 

3. 索引 覆盖 查询 是 很 快 的。 如 果 一 个 索引 包含 了 查询 需要 的 所 有 列 ， 那 么 存储 引 歼 就 
不 需要 再 回 表 查 找 行 。 这 避免 了 大 量 的 单行 访问 ， 而 上 面 的 第 1 点 已 经 写 明 单行 访 
问 是 很 慢 的 。 


总 的 来 说 ， 编写 查询 语句 时 应 该 尽 可 能 选择 合适 的 索引 以 避免 单行 查找 、 尽 可 能 地 使 用 
数据 原生 顺序 从 而 避免 额外 的 排序 操作 ， 并 尽 可 能 使 用 索引 覆盖 查询 。 这 与 本 章 开 头 提 
到 的 Lahdenmaki 和 Leach 的 书 中 的 “三 星 ” 评价 系 统 是 一 致 的 。 


如 果 表 上 的 每 一 个 查询 都 能 有 一 个 完美 的 索引 来 满足 当然 是 最 好 的 。 但 不 幸 的 是 ， 要 这 
么 做 有 了 时 可 能 需要 创建 大 量 的 索引 。 还 有 一 些 时 候 对 某 些 查询 是 不 可 能 创建 一 个 达到 "三 
星 ” 的 索引 的 〈 例 如 查询 要 按照 两 个 列 排序 ， 其 中 一 个 列 正 序 ， 另 一 个 列 倒序 )。 这 时 
必须 有 所 取舍 以 创建 最 合适 的 索引 ， 或 者 寻求 替代 策略 (例如 反 范 式 化 ， 或 者 提前 计算 
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汇总 表 等 )。 


理解 索引 是 如 何 工作 的 非常 重要 ， 应 该 根据 这 些 理解 来 创建 最 合适 的 索引 ， 而 不 是 根据 
一 些 诸如 “在 多 列 索 引 中 将 选择 性 最 高 的 列 放 在 第 一 列 ” 或 “应 该 为 WHERE 子 句 中 出 现 
的 所 有 列 创建 索引 ”之 类 的 经 验 法 则 及 其 推论 。 


那 如 何 判 断 一 个 系统 创建 的 索引 是 合理 的 呢 ? 一 般 来 说 ， 我 们 建议 按 响 应 时 间 来 对 查询 
进行 分 析 。 找 出 那些 消耗 最 长 时 间 的 查询 或 者 那些 给 服务 器 带 来 最 大 压力 的 查询 (第 3 
章 中 介绍 了 如 何 测量 ) ， 然 后 检查 这 些 查询 的 schema、SQL 和 索引 结构 ， 判 断 是 否 有 查 
询 扫描 了 太 多 的 行 ， 是 否 做 了 很 多 额外 的 排序 或 者 使 用 了 临时 表 ， 是 否 使 用 随机 LI/O 访 
问 数 据 ， 或 者 是 有 太 多 回 表 查询 那些 不 在 索引 中 的 列 的 操作 。 


如 果 一 个 查询 无 法 从 所 有 可 能 的 索引 中 获 益 ， 则 应 该 看 看 是 否 可 以 创建 一 个 更 合适 的 索 
引 来 提升 性 能 。 如 果 不 行 ， 也 可 以 看 看 是 否 可 以 重 写 该 查询 ， 将 其 转化 成 一 个 能 够 高 效 
利用 现 有 索引 或 者 新 创建 索引 的 查询 。 这 也 是 下 一 章 要 介绍 的 内 容 。 


如 果 根 据 第 3 章 介 绍 的 基于 响应 时 间 的 分 析 不 能 找 出 有 问题 的 查询 呢 ? 是 否 可 能 有 我 们 
没有 注意 到 的 “很 糟糕 ”的 查询 ， 需 要 一 个 更 好 的 索引 来 获取 更 高 的 性 能 ? 一 般 来 说 ， 
不 可 能 。 对 于 诊断 时 抓 不 到 的 查询 ， 那 就 不 是 问题 。 但 是 ， 这 个 查询 未 来 有 可 能 会 成 为 
问题 ,因为 应 用 程序 .数据 和 负载 都 在 变化 。 如 果 仍 然 想 找到 那些 索引 不 是 很 合适 的 查询 ， 
并 在 它们 成 为 问题 前 进行 优化 ， 则 可 以 使 用 pt-query-digest 的 查询 审查 “review” 功 能 ， 
分 析 其 EXPLAIN 出 来 的 执行 计划 。 
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查询 性 能 优化 


前 面 的 章节 我 们 介绍 了 如 何 设 计 最 优 的 库 表 结构 、 如 何 建立 最 好 的 索引 ， 这 些 对 于 高 性 
能 来 说 是 必 不 可 少 的。 但 这 些 还 不 够 一 一 还 需要 合理 的 设计 查询 。 如 果 查 询 写 得 很 糟糕， 
即使 库 表 结 构 再 合理 、 索 引 再 合适 ， 也 无 法 实现 高 性 能 。 


查询 优化 、 索 引 优化 、 库 表 结 构 优 化 需要 齐头并进 ， 一 个 不 落 。 在 获得 编写 MySQL Æ 
询 的 经 验 的 同时 ， 也 将 学 习 到 如 何 为 高 效 的 查询 设计 表 和 索引 。 同 样 的 ， 也 可 以 学 习 到 
在 优化 库 表 结构 时 会 影响 到 哪些 类 型 的 查询 。 这 个 过 程 需 要 时 间 ， 所 以 建议 大 家 在 学 习 
后 面 章 市 的 时 候 多 回头 看 看 这 三 章 的 内 容 。 


本 章 将 从 查询 设计 的 一 些 基本 原则 开始 一 一 这 也 是 在 发 现 查 询 效 率 不 高 的 时 候 首先 需要 
考虑 的 因素 。 然 后 会 介绍 一 些 更 深 的 查询 优化 的 技巧 ， 并 会 介绍 一 些 MySQL 优化 器 内 
部 的 机 制 。 我 们 将 展示 MySQL 是 如 何 执 行 查询 的 ， 你 也 将 学 会 如 何 去 改 变 一 个 查询 的 
执行 计划 。 最 后 ， 我 们 要 看 一 下 MySQL 优化 器 在 哪些 方面 做 得 还 不 够 ,并 探索 查询 优 
化 的 模式 ， 以 帮助 MySQL 更 有 效 地 执行 查询 。 


本 章 的 目标 是 帮助 大 家 更 深刻 地 理解 MySQL 如 何 真 正 地 执行 查询 ， 并 明白 高 效 和 低 效 
的 原因 何在 ， 这 样 才能 充分 发 挥 MySQL AULA, HERF EES A. 


6.1 为 什么 查询 速度 会 慢 

在 尝试 编写 快速 的 查询 之 前 ， 需 要 清楚 一 点 ， 真 正 重 要 是 响应 上 时间。 如 果 把 查询 看 作 是 
一 个 任务 ， 那 么 它 由 一 系列 子 任务 组 成 ， 每 个 子 任务 都 会 消耗 一 定 的 时 间 。 如 果 要 优化 
查询 ， 实 际 上 要 优化 其 子 任务 ， 要 么 消除 其 中 一 些 子 任务 ， 要 么 减少 子 任务 的 执行 次 数 ， 
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要 么 让 子 任务 运行 得 更 快 <:。 


MySQL 在 执行 查询 的 时 候 有 哪些 子 任务 ， 哪 些 子 任务 运行 的 速度 很 慢 ? 这 里 很 难 给 
完整 的 列表 ， 但 如 采 按 照 第 3 章 介绍 的 方法 对 查询 进行 剖析 ， 就 能 看 到 查询 所 执行 的 子 
任务 。 通 常 来 说 ， 查 询 的 生命 周期 大 致 可 以 按照 顺序 来 看 : 从 客户 端 ， 到 服务 器 ， 然 后 
在 服务 器 上 进行 解析 ， 生 成 执行 计划 ， 执 行 ， 并 返回 结果 给 客户 端 。 其 中 “执行 ”可 以 
认为 是 整个 生命 周期 中 最 重要 的 阶段 ， 这 其 中 包括 了 大 量 为 了 检索 数据 到 存储 引擎 的 调 
用 以 及 调用 后 的 数据 处 理 ， 包 括 排序 、 分 组 等 。 


在 完成 这 些 任务 的 时 候 ， 查 询 需 要 在 不 同 的 地 方 伦 费时 间 ， 包 括 网 络 ，CPU 计算 ， 生 成 
统计 信息 和 执行 计划 、 锁 等 待 〈《 互 斥 等 待 ) 等 操作 ， 尤 其 是 向 底层 存储 引擎 检索 数据 的 
调用 操作 , 这些 调 用 需要 在 内 存 操作 .CPU 操作 和 内 存 不 足 时 导致 的 IO 操作 上 消耗 时 间 。 
根据 存储 引擎 不 同 ， 可 能 还 会 产生 大 量 的 上 下 文 切 换 以 及 系统 调用 。 


在 每 一 个 消耗 大 量 时 间 的 查询 案例 中 ， 我 们 都 能 看 到 一 些 不 必要 的 额外 操作 、 某 些 操作 
被 额外 地 重复 了 很 多 次 、 某 些 操作 执行 得 太 慢 等 。 优 化 查询 的 目的 就 是 减少 和 消除 这 些 


操作 所 花费 的 时 间 。 | 


再 次 申明 一 后 ,对 于 一 个 查询 的 全 部 生命 周期 ,上 面 列 的 并 不 完整 。 这 里 我 们 只 是 想 说 明 : 
了 解 查询 的 生命 周期 、 清 楚 查 询 的 时 间 消 耗 情况 对 于 优化 查询 有 很 大 的 意义 。 有 了 这 些 
概念 ， 我 们 再 一 起 来 看 看 如 何 优化 查询 。 


=] + + % 

6.2 慢 查 询 基础 : 优化 数据 访问 
查询 性 能 低下 最 基本 的 原因 是 访问 的 数据 太 多 。 某 些 查询 可 能 不 可 避免 地 需要 筛选 大 量 
数据 ， 但 这 并 不 稼 见 。 大 部 分 性 能 低下 的 查询 都 可 以 通过 减少 访问 的 数据 量 的 方式 进行 
优化 。 对 于 低 效 的 查询 ， 我 们 发 现 通过 下 面 两 个 步骤 来 分 析 总 是 很 有 效 : 
1. 确认 应 用 程序 是 否 在 检索 大 量 超过 需要 的 数据 。 这 通常 意味 着 访问 了 太 多 的 行 ， 但 

有 时候 也 可 能 是 访问 了 太 多 的 列 。 
2. 确认 MySQL 服务 器 层 是 否 在 分 析 大 量 超过 需要 的 数据 行 。 


6.2.1 是 否 向 数据 库 请 求 了 不 需要 的 数据 
有 些 查询 会 请 求 超过 实际 需要 的 数据 ， 然 后 这 些 多 余 的 数据 会 被 应 用 程序 丢弃 。 这 会 给 


注 1 : 有 了 时候 你 可 能 还 需要 修改 一 些 查 询 ， 减 少 这 些 查 询 对 系统 中 运行 的 其 他 查询 的 影响 。 这 种 情况 下 ， 
你 是 在 减少 一 个 查询 的 资源 消耗 ， 这 我 们 在 第 3 章 已 经 讨论 过 。 
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MySQL ARS RSP HD dh, HAMARRE, BPS ARS BAY CPU 
和 内 存 资源 。 


这 里 有 一 些 典 型 案例 : 


查询 不 需要 的 记录 


一 个 常见 的 错误 是 常常 会 误 以 为 MySQL 会 只 返回 需要 的 数据 ， 实 际 上 MySQL él 
是 先 返回 全 部 结果 集 再 进行 计算 。 我 们 经 常会 看 到 一 些 了 解 其 他 数据 库 系 统 的 人 会 
设计 出 这 类 应 用 程序 。 这 些 开 发 者 习惯 使 用 这 样 的 技术 ， 先 使 用 SELECT 语句 查询 大 
量 的 结果 ,然后 获取 前 面 的 X 行 后 关闭 结果 集 (例如 在 新 闻 网 站 中 取出 100 条 记录 ， 
但 是 只 是 在 页 面 上 显示 前 面 10 条 )。 他 们 认为 MySQL 会 执行 查询 ， 并 只 返回 他 们 
需要 的 10 条 数据 ， 然 后 停止 查询 。 实 际 情况 是 MySQL 会 查询 出 全 部 的 结果 集 ， 客 
户 端的 应 用 程序 会 接收 全 部 的 结果 集 数 据 ， 然 后 抛弃 其 中 大 部 分 数据 。 最 简单 有 效 
的 解决 方法 就 是 在 这 样 的 查询 后 面 加 上 LIMIT。 . 


多 表 关 联 时 返回 全 部 列 


如 果 你 想 查 询 所 有 在 电影 Academy Dinosaur 中 出 现 的 演员 ， 千 万 不 要 按 下 面 的 写法 
编写 查询 : 
mysql> SELECT * FROM sakila.actor 
-> INNER JOIN sakila.film actor USING(actor id) 


-> INNER JOIN sakila.film USING(film id) 
-> WHERE sakila.film.title = ‘Academy Dinosaur' ; 


这 将 返回 这 三 个 表 的 全 部 数据 列 。 正 确 的 方式 应 该 是 像 下 面 这 样 只 取 需 要 的 列 : 


mysql> SELECT sakila.actor.* FROM sakila.actor...; 


总 是 取 出 全 部 列 


we 2 


每 次 看 到 SELECT * 的 时 候 都 需要 用 怀疑 的 眼光 审视 ， 是 不 是 真 的 需要 返回 全 部 的 
列 ? 很 可 能 不 是 必需 的 。 取 出 全 部 列 ， 会 让 优化 器 无 法 完成 索引 覆盖 扫描 这 类 优化 ， 
还 会 为 服务 器 带 来 额外 的 110、 内 存 和 CPU 的 消耗 。 因 此 ， 一 些 DBA 是 严格 禁止 
SELECT * 的 写法 的 ， 这 样 做 有 时 候 还 能 避免 某 些 列 被 修改 带 来 的 问题 。 

当然 ， 查 询 返 回 超过 需要 的 数据 也 不 总 是 坏事 。 在 我 们 研究 过 的 许多 案例 中 ， 人 们 
会 告诉 我 们 说 这 种 有 点 浪费 数据 库 资 源 的 方式 可 以 简化 开发 ， 因 为 能 提高 相同 代码 
片段 的 复 用 性 ， 如 果 清 楚 这 样 做 的 性 能 影响 ， 那 么 这 种 做 法 也 是 值得 考虑 的 。 如 果 
应 用 程序 使 用 了 某 种 缓存 机 制 ， 或 者 有 其 他 考虑 ， 获 取 超 过 需要 的 数据 也 可 能 有 其 
好 处 ， 但 不 要 忘记 这 样 做 的 代价 是 什么 。 获 取 并 缓存 所 有 的 列 的 查询 ， 相 比 多 个 独 


注 2 : 如 果 应 用 服务 器 和 数据 库 不 在 同一 台 主 机 上 ， 网 络 开销 就 显得 很 明显 了 。 即 使 是 在 同一 台 服 务 器 


上 仍然 会 有 数据 传输 的 开销 。 
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立 的 只 获取 部 分 列 的 查询 可 能 就 更 有 好 处 。 

重复 查询 相同 的 数据 
如 果 你 不 太 小 心 ， 很 容易 出 现 这 样 的 错误 一 一 不 断 地 重复 执行 相同 的 查询 ， 然 后 每 
次 都 返回 完全 相同 的 数据 。 例 如 ， 在 用 户 评论 的 地 方 需要 查询 用 户头 像 的 URL， 那 
么 用 户 多 次 评论 的 时 候 ， 可 能 就 会 反复 查询 这 个 数据 。 比 较 好 的 方案 是 ， 当 初次 查 
询 的 时 候 将 这 个 数据 缓存 起 来 ， 需 要 的 时 候 从 缓存 中 取出 ， 这 样 性 能 显然 会 更 好 。 





6.2.2 MySQL 是 否 在 扫描 额外 的 记录 
在 确定 查询 只 返回 需要 的 数据 以 后 ， 接 下 来 应 该 看 看 查询 为 了 返回 结果 是 否 扫 描 了 过 多 
的 数据 。 对 于 MySQL， 最 简单 的 衡量 查询 开销 的 三 个 指标 如 下 : 


e 响应 时 间 

。 ”扫描 的 行 数 

。 返回 的 行 数 

没有 哪个 指标 能 够 完美 地 衡量 查询 的 开销 ， 但 它们 大 致 反映 了 MySQL 在 内 部 执行 查 
询 时 需要 访问 多 少数 据 ， 并 可 以 大 概 推算 出 查询 运行 的 时 间 。 这 三 个 指标 都 会 记录 到 
MySQL 的 慢 日 志 中 ， 所 以 检查 慢 日 志 记 录 是 找 出 扫描 行 数 过 多 的 查询 的 好 办 法 。 


响应 时 间 
要 记 住 ， 响 应 时 间 只 是 一 个 表面 上 的 值 。 这 样 说 可 能 看 起 来 和 前 面 关 于 响应 时 间 的 说 法 
有 了 矛盾? 其 实 并 不 矛盾 ， 响 应 时 间 仍 然 是 最 重要 的 指标 ， 这 有 一 点 复杂 ， 后 面 细 细 道 来 。 


响应 时 间 是 两 个 部 分 之 和 : 服务 时 间 和 排队 时 间 。 服 务 时 间 是 指数 据 库 处 理 这 个 查询 
真正 花 了 多 长 时 间 。 排 队 时 间 是 指 服务 器 因为 等 待 某 些 资源 而 设 有 真正 执行 查询 的 时 
间 一 一 可 能 是 等 IO 操作 完成 ， 也 可 能 是 等 待 行 锁 ， 等 等 。 遗 憾 的 是 ， 我 们 无 法 把 响应 
时 间 细 分 到 上 面 这 些 部 分 ， 除 非 有 什么 办 法 能 够 逐个 测量 上 面 这 些 消 耗 ， 不 过 很 难 做 到 .。 
一 般 最 常见 和 重要 的 等 待 是 VO 和 锁 等 待 ， 但 是 实际 情况 更 加 复杂 。 


所 以 在 不 同类 型 的 应 用 压力 下 ， 响 应 时 间 并 没有 什么 一 致 的 规律 或 者 公式 。 诸 如 存储 引 
BR ( 表 锁 、 行 锁 )、 高 并 发 资源 竞争 、 硬件 响应 等 诸多 因素 都 会 影响 响应 时 间 。 所 以 ， 
响应 时 间 既 可 能 是 一 个 问题 的 结果 也 可 能 是 一 个 问题 的 原因 ， 不 同 案例 情况 不 同 ， 除 非 
能 够 使 用 第 3 章 的 “单个 查询 问题 还 是 服务 器 问题 ”一 市 介绍 的 技术 来 确定 到 底 是 因 还 
FER o 


当 你 看 到 一 个 查询 的 响应 时 间 的 时 候 ， 首 先 需要 问 问 自己 ， 这 个 响应 时 间 是 否 是 一 个 
合理 的 值 。 实 际 上 可 以 使 用 “快速 上 限 估计 ”法 来 估算 查询 的 响应 时 间 ， 这 是 由 Tapio 
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Lahdenmaki 和 Mike Leach 编写 的 Relational Database Index Design and the Optimizers 
(Wiley 出 版 社 ) 一 书 提 到 的 技术 ， 限 于 篇 幅 ， 在 这 里 不 会 详细 展开 。 概 括 地 说 ， 了 人 解 这 
个 查询 需要 哪些 索引 以 及 它 的 执行 计划 是 什么 ,然后 计算 大 概 需 要 多 少 个 顺序 和 随机 IO, 
再 用 其 乘 以 在 具体 硬件 条 件 下 一 次 IO 的 消耗 时 间 。 最 后 把 这 些 消耗 都 加 起 来 ， 就 可 以 
获得 一 个 大 概 参 考 值 来 判断 当前 响应 时 间 是 不 是 一 个 合理 的 值 。 


扫描 的 行 数 和 返回 的 行 数 
分 析 查 询 时 ， 查 看 该 查询 扫描 的 行 数 是 非常 有 帮助 的 。 这 在 一 定 程度 上 能 够 说 明 该 查询 
找到 需要 的 数据 的 效率 高 不 高 。 


对 于 找 出 那些 “ 粳 糕 ”的 查询 ， 这 个 指标 可 能 还 不 够 完美 ， 因 为 并 不 是 所 有 的 行 的 访问 
代价 都 是 相同 的 。 较 短 的 行 的 访问 速度 更 快 ， 内 存 中 的 行 也 比 磁 盘 中 的 行 的 访问 速度 要 
快 得 多 。 


理想 情况 下 扫描 的 行 数 和 返回 的 行 数 应 该 是 相同 的 。 但 实际 情况 中 这 种 “ 美 事 ” 并 不 多 。 
例如 在 做 一 个 关联 查询 时 ， 服 务 器 必须 要 扫描 多 行 才 能 生成 结果 集中 的 一 行 。 扫 描 的 行 
数 对 返回 的 行 数 的 比率 通常 很 小 ， 一 般 在 1:1 和 10:1 之 间 ， 不 过 有 了 时候 这 个 值 也 可 能 非 
常 非常 大 。 

扫描 的 行 数 和 访问 类 型 

在 评估 查询 开销 的 时 候 ， 需 要 考虑 一 下 从 表 中 找到 某 一 行 数据 的 成 本 。MySQL AA JL 
种 访问 方式 可 以 查找 并 返回 一 行 结 果 。 有 些 访问 方式 可 能 需要 扫描 很 多 行 才 能 返回 一 行 
结果 ， 也 有 些 访问 方式 可 能 无 须 扫 描 就 能 返回 结果 。 

在 EXPLAIN 语 句 中 的 type 列 反 应 了 访问 类 型 。 访 问 类 型 有 很 多 种 ， 从 全 表 扫 描 到 索引 扫 
朱 、 范 围 扫 描 、 唯 一 索引 查询 、 常 数 引 用 等 。 这 里 列 的 这 些 ， 速 度 是 从 慢 到 快 ， 扫 描 的 


行 数 也 征 从 小 到 大 。 你 不 需要 记 住 这 些 访 问 类 型 ， 但 需要 明日 扫描 表 、 扫 摘 索 3 引 、 范 转 
访问 和 单 值 访问 的 概念 。 


如 采 查 询 没 有 办 法 找到 合适 的 访问 类 型 ， 那 么 解决 的 最 好 办 法 通常 就 是 增加 一 个 合适 的 
索引 ， 这 也 正 是 我 们 前 一 章 讨 论 过 的 问题 。 现 在 应 该 明白 为 什么 索引 对 于 查询 优化 如 此 
EZ J. RIE MySQL 以 最 高 效 、 扫 描 行 数 最 少 的 方式 找到 需要 的 记录 。 


例如 ， 我 们 看 看 示例 数据 库 Sakila 中 的 一 个 查询 案例 ， 
mysql> SELECT * FROM sakila.film_actor WHERE film id = 1; 


这 个 查询 将 返回 10 行 数 据 ， 从 EXPLAIN 的 结果 可 以 看 到 ， MySQL 在 索引 idx_fk_film 
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id 上 使 用 了 ref 访问 类 型 来 执行 查询 : 


mysql> EXPLAIN SELECT * FROM sakila.film_actor WHERE film id = 1\G 
HRA KAA AK AR AR AR kkk kkk 1 。 roy RRR RRR RAR KARA RRR 


id: 1 
select_type: SIMPLE 
table: film_actor 
type: ref 
possible keys: idx fk film id 
key: idx fk film id 
key_len: 2 
ref: const 
rows: 10 


EXPLAIN 的 结果 也 显示 MySQL 预 佑 需要 访问 10 行 数据 。 换 句 话 说， 查询 优化 器 认为 这 

种 访问 类 型 可 以 高 效 地 完成 查询 。 如 果 没 有 合适 的 索引 会 怎样 呢 ? MySQL 就 不 得 不 使 

用 一 种 更 精 糕 的 访问 类 型 ， 下 面 我 们 来 看 看 如 果 我 们 删除 对 应 的 索引 再 来 运行 这 个 查询 : 
mysql> ALTER TABLE sakila.film actor DROP FOREIGN KEY fk film actor film; 


mysql> ALTER TABLE sakila.film actor DROP KEY idx fk film id; 


mysql> EXPLAIN SELECT * FROM sakila.film_actor WHERE film id = 1\G 
HARA AAR ARK AR KARA KK RRR AK q1. roy RRR kkk kk kkk kkk 


id: 1 
select_type: SIMPLE 

table: film_actor 

type: ALL 

possible keys: NULL 

key: NULL 

key_len: NULL 

ref: NULL 

rows: 5073 
Extra: Using where 


正如 我 们 预测 的 ， 访 问 类 型 变 成 了 一 个 全 表 扫 描 (ALL), WE MySQL 预 估 需 要 扫描 


5073 条 记录 来 完成 这 个 查询 。 这 里 的 “Using Where” 表 示 MySQL 将 通过 WHERE 条 件 
来 得 选 存储 引擎 返回 的 记录 。 


一 般 MySQL 能 够 使 用 如 下 三 种 方式 应 用 WHERE 条 件 ， 从 好 到 坏 依 次 为 : 


© 在 索引 中 使 用 WHERE 条 件 来 过 滤 不 匹配 的 记录 。 这 是 在 存储 引擎 层 完成 的 。 

。 使 用 索引 和 覆盖 扫描 (在 Extra 列 中 出 现 了 Using index) 来 返回 记录 ， 直 接 从 索引 中 
过 滤 不 需要 的 记录 并 返回 命中 的 结果 。 这 是 在 MySQL 服务 器 层 完 成 的 ， 但 无 须 再 
回 表 查 询 记录 。 

e。 从 数据 表 中 返回 数据 ， 然 后 过 滤 不 满足 条 件 的 记录 (在 Extra 列 中 出 现 Using 
Where), XÆ MySQL 服务 器 层 完 成 ，MySQL 需要 先 从 数据 表 读 出 记录 然后 过 滤 。 
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上 面 这 个 例子 说 明了 好 的 索引 多 么 重要 。 好 的 索引 可 以 让 查询 使 用 合适 的 访问 类 型 ， 尽 
可 能 地 只 扫描 需要 的 数据 行 。 但 也 不 是 说 增加 索引 就 能 让 扫描 的 行 数 等 于 返回 的 行 数 。 
例如 下 面 使 用 聚合 函数 COUNT() 的 查询 : 


mysql> SELECT actor_id, COUNT(*) FROM sakila.film_actor GROUP BY actor id; 


这 个 查询 需要 读 取 几 千 行 数据 ， 但 是 仅 返 回 200 行 结果 。 没 有 什么 索引 能 够 让 这 样 的 查 
询 减少 需要 扫描 的 行 数 。 


不 幸 的 是 ，MySQL 不 会 告诉 我 们 生成 结果 实际 上 需要 扫描 多 少 行 数据 “*， 而 只 会 告 i 
我 们 生成 结果 时 一 共 扫 描 了 多 少 行 数据 。 扫 描 的 行 数 中 的 大 部 分 都 很 可 能 是 被 WHERE 条 
件 过 滤 掉 的 ， 对 最 终 的 结果 集 并 没有 贡献 。 在 上 面 的 例子 中 ， 我 们 删除 索引 后 ， 看 到 
MySQL 需要 扫描 所 有 记录 然后 根据 WHERE 条 件 过 滤 ， 最 终 只 返回 10 行 结果 。 理 解 一 个 
查询 需要 扫描 多 少 行 和 实际 需要 使 用 的 行 数 需 要 先 去 理解 这 个 查询 背后 的 逻辑 和 思想 。 


如 果 发 现 查询 需要 扫描 大 量 的 数据 但 只 返回 少数 的 行 ， 那 么 通常 可 以 尝试 下 面 的 技巧 去 
优化 它 ， 


。 使 用 索引 禾 盖 扫描 ， 把 所 有 需要 用 的 列 都 放 到 索引 中 ， 这 样 存储 引擎 无 须 回 表 获取 
对 应 行 就 可 以 返回 结果 了 (在 前 面 的 章节 中 我 们 已 经 讨论 过 了 )。 

。 改变 库 表 结构 。 例 如 使 用 单独 的 汇总 表 (这 是 我 们 在 第 4 章 中 讨论 的 办 法 )。 

© 重 写 这 个 复杂 的 查询 ， 让 MySQL 优化 器 能 够 以 更 优化 的 方式 执行 这 个 查询 (这 是 
本 章 后 续 需 要 讨论 的 问题 )。 


6.3 重 构 查询 的 方式 


在 优化 有 问题 的 查询 时 ， 目 标 应 该 是 找到 一 个 更 优 的 方法 获得 实际 需要 的 结 采 一 而 不 
一 定 总 是 需要 从 MySQL 获取 一 模 一 样 的 结果 集 。 有 时 候 ， 可 以 将 查询 转换 一 种 写法 让 
其 返回 一 样 的 结果 ,但 是 性 能 更 好 。 但 也 可 以 通过 修改 应 用 代码 ,用 另 一 种 方式 完成 查询 ， 
最 终 达 到 一 样 的 目的 。 这 一 节 我 们 将 介绍 如 何 通过 这 种 方式 来 重 构 查询 ， 并 展示 何 时 需 
要 使 用 这 样 的 技巧 。 


6.3.1 一 个 复杂 查询 还 是 多 个 简单 查询 

设计 查询 的 时 候 一 个 需要 考虑 的 重要 问题 是 ， 是 否 需要 将 一 个 复杂 的 查询 分 成 多 个 简单 
的 查询 。 在 传统 实现 中 ， 总 是 强调 需要 数据 库 层 完成 尽 可 能 多 的 工作 ， 这 样 做 的 逻辑 在 
于 以 前 总 是 认为 网 络 通信 、 查 询 解 析 和 优化 是 一 件 代价 很 高 的 事情 。 


注 3: 更 多 内 容 请 参考 后 面 的 “优化 COUNTO 查询 ”。 
注 4: 例如 关联 查询 结果 返回 的 一 条 记录 通常 是 由 多 条 记录 组 成 。 一 一 译 者 注 
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但 是 这 样 的 想法 对 于 MySQL 并 不 适用 , MySQL 从 设计 上 让 连接 和 断 开 连接 都 很 轻 量 级 ， 
在 返回 一 个 小 的 查询 结果 方面 很 高 效 。 现 代 的 网 络 速度 比 以 前 要 快 很 多 ， 无 论 是 带宽 还 
是 延迟 。 在 茶 些 版 本 的 MySQL 上 ， 即 使 在 一 个 通用 服务 器 上 ， 也 能 够 运行 每 秒 超过 10 
万 的 查询 ， 即 使 是 一 个 千 兆 网 卡 也 能 轻松 满足 每 秒 超过 2000 次 的 查询 。 所 以 运行 多 个 
小 查询 现在 已 经 不 是 大 问题 了 。 


MySQL 内 部 每 秒 能 够 扫描 内 存 中 上 百 万 行 数据 ， 相 比 之 下 ，MySQL 响应 数据 给 客户 端 
就 慢 得 多 了 。 在 其 他 条 件 都 相同 的 时 候 ,使 用 尽 可 能 少 的 查询 当然 是 更 好 的 。 但 是 有 了 时候， 
将 一 个 大 查询 分 解 为 多 个 小 查询 是 很 有 必要 的 。 别 害怕 这 样 做 ， 好 好 衡量 一 下 这 样 做 是 
不 是 会 减少 工作 量 。 稍 后 我 们 将 通过 本 章 的 一 个 示例 来 展示 这 个 技巧 的 优势 。 


不 过 ， 在 应 用 设计 的 时 候 ， 如 果 一 个 查询 能 够 胜任 时 还 写成 多 个 独立 查询 是 不 明智 的 。 
例如 ， 我 们 看 到 有 些 应 用 对 一 个 数据 表 做 10 次 独立 的 查询 来 返回 10 行 数据 ， 每 个 查询 
返回 一 条 结果 ,查询 10 次! 


6.3.2 切 分 查询 
有 时候 对 于 一 个 大 查询 我 们 需要 “分 而 治之 ”， 将 大 查询 切 分 成 小 查询 ， 每 个 查询 功能 
完全 一 样 ， 只 完成 一 小 部 分 ， 每 次 只 返回 一 小 部 分 查询 结果 。 


删除 旧 的 数据 就 是 一 个 很 好 的 例子 。 定 期 地 清除 大 量 数据 时 ， 如 果 用 一 个 大 的 语句 一 次 
性 完成 的 话 ， 则 可 能 需要 一 次 锁 住 很 多 数据 、 占 满 整 个 事务 日 志 、 耗 尽 系统 资源 、 阻 塞 
很 多 小 的 但 重要 的 查询 。 将 一 个 大 的 DELETE 语句 切 分 成 多 个 较 小 的 查询 可 以 尽 可 能 小 地 
影响 MySQL 性 能 ， 同 时 还 可 以 减少 MySQL 复制 的 延迟 。 例 如 ， 我 们 需要 每 个 月 运行 
一 次 下 面 的 查询 : 


mysql> DELETE FROM messages WHERE created < DATE_SUB(NOW(), INTERVAL 3 MONTH); 
那么 可 以 用 类 似 下 面 的 办 法 来 完成 同样 的 工作 : 


rows affected = 0 
do { 
rows affected = do query( 
"DELETE FROM messages WHERE created < DATE_SUB(NOW(), INTERVAL 3 MONTH) 
LIMIT 10000") 
} while rows affected > 0 


一 次 删除 一 万 行 数据 一 般 来 说 是 一 个 比较 高 效 而 且 对 服务 器 “ 影响 也 最 小 的 做 法 (如果 
是 事务 型 引擎 ， 很 多 时 候 小 事务 能 够 更 高 效 ) 。 同 时 ， 需 要 注意 的 是 ， 如 采 每 次 删除 数 
据 后 ， 都 暂停 一 会 儿 再 做 下 一 次 删除 ， 这 样 也 可 以 将 服务 器 上 原本 一 次 性 的 压力 分 散 到 


注 5: Percona Toolkit 中 的 pt-archiver 工具 就 可 以 安全 而 简单 地 完成 这 类 工作 。 
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一 个 很 长 的 时 间 段 中 ， 就 可 以 大 大 降低 对 服务 器 的 影响 ， 还 可 以 大 大 减少 删除 时 锁 的 持 
有 时 间 。 


6.3.3 分 解 关联 查询 < 
很 多 高 性 能 的 应 用 都 会 对 关联 查询 进行 分 解 。 简 单 地 ， 可 以 对 每 一 个 表 进 行 一 次 单 表 查 
询 ， 然 后 将 结果 在 应 用 程序 中 进行 关联 。 例 如 ， 下 面 这 个 查询 : 
mysql> SELECT * FROM tag 
-> JOIN tag post ON tag post.tag id=tag.id 


-> JOIN post ON tag post.post id=post.id 
-> WHERE tag.tag='mysql'; 


可 以 分 解 成 下 面 这 些 查询 来 代替 : 


mysql> SELECT * FROM tag WHERE tag= ' mysql ; 

mysql> SELECT * FROM tag post WHERE tag id=1234; 

mysql> SELECT * FROM post WHERE post.id in (123,456,567,9098,8904) ; 
到 底 为 什么 要 这 样 做 ? 千 一 看 ， 这 样 做 并 没有 什么 好 处 ， 原 本 一 条 查询 ， 这 里 却 变 成 多 
条 查询 ， 返 回 的 结果 又 是 一 模 一 样 的 。 事 实 上 ， 用 分 解 关联 查询 的 方式 重 构 查 询 有 如 下 
的 优势 : 


。 ”让 缓存 的 效率 更 高 。 许 多 应 用 程序 可 以 方便 地 缓存 单 表 查 询 对 应 的 结果 对 象 。 例 如 ， 
上 面 查 询 中 的 tag 已 经 被 缓存 了 ， 那 么 应 用 就 可 以 跳 过 第 一 个 查询 。 再 例如 ， 应 用 
中 已 经 缓存 了 ID 为 123、567、9098 的 内 容 ， 那 么 第 三 个 查询 的 IN() 中 就 可 以 少 
几 个 ID。 另 外 ， 对 MySQL 的 查询 缓存 来 说 主 5， 如 果 关 联 中 的 某 个 表 发 生 了 变化 ， 
那么 就 无 法 使 用 查询 缓存 了 ， 而 拆 分 后 ， 如 果 某 个 表 很 少 改 变 ， 那 么 基于 该 表 的 查 
询 就 可 以 重复 利用 查询 缓存 结果 了 。 

。 ”将 查询 分 解 后 ， 执 行 单个 查询 可 以 减少 锁 的 竞争 。 

。 ”在 应 用 层 做 关联 ， 可 以 更 容易 对 数据 库 进行 拆 分 ， 更 容易 做 到 高 性 能 和 可 扩展 。 

。 查询 本 身 效率 也 可 能 会 有 所 提升 。 这 个 例子 中 ， 使 用 IN( ) 代替 关联 查询 ， 可 以 让 
MySQL 按照 ID 顺序 进行 查询 ， 这 可 能 比 随机 的 关联 要 更 高 效 。 我 们 后 续 将 详细 介 
绍 这 点 。 

。 ”可 以 减少 元 余 记 录 的 查询 。 在 应 用 层 做 关联 查询 ， 意 味 着 对 于 某 条 记录 应 用 只 需要 
查询 一 次 ,而 在 数据 库 中 做 关联 查询 , 则 可 能 需要 重复 地 访问 一 部 分 数据 。 从 这 点 看 ， 
这 样 的 重 构 还 可 能 会 减少 网 络 和 内 存 的 消耗 。 

。 更 进一步 ， 这 样 做 相当 于 在 应 用 中 实现 了 哈 希 关联 ， 而 不 是 使 用 MySQL ORE 
环 关联 。 某 些 场景 哈 希 关联 的 效率 要 高 很 多 (本 章 后 续 我 们 将 讨论 这 点 )。 


注 6: Query Cache。 一 一 译 者 注 
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在 很 多 场景 下 ， 通 过 重 构 查询 将 关联 放 到 应 用 程序 中 将 会 更 加 高 效 ， 这 样 的 场景 有 很 
多 ， 比 如 : 当 应 用 能 够 方便 地 缓存 单个 查询 的 结果 的 时 候 、 当 可 以 将 数据 分 布 到 不 同 的 
MySQL 服务 右上 的 时 候 、 当 能 够 使 用 IN( ) 的 方式 代替 关联 查询 的 时 候 、 当 查询 中 使 用 
同一 个 数据 表 的 时 候 。 


6.4 碍 询 执行 的 基础 


HAE MySQL 能 够 以 更 高 的 性 能 运行 查询 时 ， 最 好 的 办 法 就 是 和 弄 清楚 MySQL 是 如 何 
优化 和 执行 查询 的 。 一 旦 理解 这 一 点 ， 很 多 查询 优化 工作 实际 上 就 是 遵循 一 些 原则 让 优 
化 器 能 够 按照 预想 的 合理 的 方式 运行 。 


换 句 话 说 ， 是 时 候 回 头 看 看 我 们 前 面 讨论 的 内 容 了 : MySQL 执行 一 个 查询 的 过 程 。 根 
据 图 6-1， 我 们 可 以 看 到 当 向 MySQL 发 送 一 个 请 求 的 时 候 ，MySQL 到 底 做 了 些 什么 : 


Bommelsmriet- anion ri i mir ssseeneeecesiveiueeenwrreiosreeadeopesnepresrpaeaeey 


; MySQL 服务 器 


客户 端 /服务 器 | 
i aL 一。 














PRM ATA LE SPASM 





查询 执行 计划 一 一 








图 6-1: 查询 执行 路 径 
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1. 客户 端 发 送 一 条 查询 给 服务 器 。 

2. 服务 器 先 检 查 查询 缓存 ， 如 果 命 中 了 缓存 ， 则 立刻 返回 存储 在 缓存 中 的 结果 。 否 则 
进入 下 一 阶段 。 

3. 服务 器 端 进行 SQL 解析 、 预 处 理 ， 再 由 优化 器 生成 对 应 的 执行 计划 。 

4. MySQL 根据 优化 器 生成 的 执行 计划 ， 调 用 存储 引擎 的 API 来 执行 查询 。 

5. 将 结果 返回 给 客户 端 。 


上 面 的 每 一 步 都 比 想 象 的 复杂 ， 我 们 在 后 续 章 市 中 将 继续 讨论 。 我 们 会 看 到 在 每 一 个 阶 
段 查询 处 于 何 种 状态 。 查 询 优 化 器 是 其 中 特别 复杂 也 特别 难 理解 的 部 分 。 还 有 很 多 的 例 
外 情况 , 例如 , 当 查 询 使 用 绑 定 变量 后 , 执行 路 径 会 有 所 不 同 , 我 们 将 在 下 一 章 讨论 这 点 。 


6.4.1 MySQL 客户 端 /服务 器 通信 协议 

一 般 来 说 ， 不 需要 去 理解 MySQL 通信 协议 的 内 部 实现 细节 ， 只 需要 大 致 理解 通信 协议 
是 如 何 工作 的 。MySQL 客户 端 和 服务 器 之 间 的 通信 协议 是 “ 半 双 工 ” 的 ， 这 意味 着 ， 
在 任何 一 个 时 刻 ， 要 么 是 由 服务 器 向 客户 端 发 送 数据 ， 要 么 是 由 客户 端 向 服务 器 发 送 
数据 ， 这 两 个 动作 不 能 同时 发 生 。 所 以 ， 我 们 无 法 也 无 须 将 一 个 消息 切 成 小 块 独立 来 
发 送 。 

这 种 协议 让 MySQL 通信 简单 快速 ， 但 是 也 从 很 多 地 方 限制 了 MySQL。 一 个 明显 的 限制 
是 ， 这 意味 着 没 法 进行 流量 控制 。 一 旦 一 端 开始 发 生 消息 ， 另 一 端 要 接收 完整 个 消息 才 
能 响应 它 。 这 就 像 来 回 抛 球 的 游戏 : 在 任何 时 刻 ， 只 有 一 个 人 能 控制 球 ， 而 且 只 有 控制 
球 的 人 才能 将 球 抛 回去 (发 送 消息 )。 


客户 端 用 一 个 单独 的 数据 包 将 查询 传 给 服务 器 。 这 也 是 为 什么 当 查 询 的 语句 很 长 的 时 候 ， 
参数 max_allowed_packet 就 特别 重要 了 和 '。 一 旦 客户 端 发 送 了 请 求 ， 它 能 做 的 事情 就 只 
是 等 待 结果 了 。 


相反 的 ， 一 般 服 务 器 响应 给 用 户 的 数据 通常 很 多 ， 由 多 个 数据 包 组 成 。 当 服务 器 开始 响 
应 客户 端 请 求 时 ， 客 户 端 必须 完整 地 接收 整个 返回 结果 ， 而 不 能 简单 地 只 取 前 面 几 条 结 
采 ， 然 后 让 服务 器 停止 发 送 数据 。 这 种 情况 下 ， 客 户 端 若 接收 完整 的 结果 ， 然 后 取 前 面 
几 条 需要 的 结果 ， 或 者 接收 完 几 条 结果 后 就 “粗暴 ”地 断 开 连接 ， 都 不 是 好 主意 。 这 也 
是 在 必要 的 时 候 一 定 要 在 查询 中 加 上 LIMIT 限制 的 原因 。 


换 一 种 方式 解释 这 种 行为 : 当 客 户 端 从 服务 器 取 数据 时 ， 看 起 来 是 一 个 拉 数 据 的 过 程 ， 
但 实际 上 是 MySQL 在 同 客 户 端 推送 数据 的 过 程 。 客 户 端 不 断 地 接收 从 服务 器 推送 的 数 
据 ， 客 户 端 也 没 法 让 服务 器 停 下 来 。 客 户 端 像 是 “从 消防 水 管 喝 水 ”( 这 是 一 个 术语 )。 


7: 如果 查 询 太 大 ， 服 务 端 会 拒绝 接收 更 多 的 数据 并 抛 出 相应 错误 。 
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多 数 连 接 MySQL 的 库 函 数 都 可 以 获得 全 部 结果 集 并 缓存 到 内 存 里 ， 还 可 以 逐 行 获取 需 
要 的 数据 。 黑 认 一 般 是 获得 全 部 结果 集 并 缓存 到 内 存 中 。MySQL 通常 需要 等 所 有 的 数 
据 都 已 经 发 送 给 客户 端 才能 释放 这 条 查询 所 占用 的 资源 ， 所 以 接收 全 部 结果 并 缓存 通常 
可 以 减少 服务 器 的 压力 ， 让 查询 能 够 早点 结束 、 早 点 释放 相应 的 资源 。 


当 使 用 多 数 连 接 MySQL 的 库 函 数 从 MySQL 获取 数据 时 ， 其 结果 看 起 来 都 像 是 从 
MySQL 服务 器 获取 数据 ， 而 实际 上 都 是 从 这 个 库 国 数 的 缓存 获取 数据 。 多 数 情况 下 这 
没什么 问题 ,但 是 如 果 需 要 返回 一 个 很 大 的 结果 集 的 时 候 ， 这 样 做 并 不 好 ， 因 为 库 函数 
会 化 很 多 时 间 和 内 存 来 存储 所 有 的 结果 集 。 如 果 能 够 尽早 开始 处 理 这 些 结果 集 ， 就 能 大 
大 减少 内 存 的 消耗 ， 这 种 情况 下 可 以 不 使 用 缓存 来 记录 结果 而 是 直接 处 理 。 这 样 做 的 缺 
点 是 ， 对 于 服务 器 来 说 ， 需 要 查询 完成 后 才能 释放 资源 ， 所 以 在 和 客户 端 交互 的 整个 过 
程 中 ， 服 务 器 的 资源 都 是 被 这 个 查询 所 占用 的 。 


我 们 看 看 当 使 用 PHP 的 时 候 是 什么 情况 。 首 先 ， 下 面 是 我 们 连接 MySQL 的 通常 
写法 : 

<?php 

$link = mysql_connect(‘localhost', 'user', 'p4ssword'); 

$result = mysql_query('SELECT * FROM HUGE_TABLE', $link); 


while ( $row = mysql_fetch atray($result) ){ 
// Do something with result 


?> 


这 段 代 码 看 起 来 像 是 只 有 当 你 需要 的 时 候 ， 才 通过 循环 从 服务 器 端 取出 数据 。 而 实际 上 ， 
在 上 面 的 代码 中 ， 在 调用 mysql_query() 的 时 候 ，PHP 就 已 经 将 整个 结果 集 缓 存 到 内 存 
中 。 下 面 的 white 循环 只 是 从 这 个 缓存 中 逐 行 取出 数据 ， 相 反 如 果 使 用 下 面 的 查询 ， 用 
mysql unbuffered query() 代替 mysql_query(), PHP 则 不 会 缓存 结果 : 

<?php 

$link = mysql connect('localhost', ‘user’, 'p4ssword' ); 

$result = mysql unbuffered query( "SELECT * FROM HUGE TABLE’, $link); 


while ( $row = mysql fetch array($result) ) { 
// Do something with result 


?> 


不 同 的 编程 语言 处 理 缓存 的 方式 不 同 。 例 如 ， 在 Perl 的 DBD:mysql 驱动 中 需要 指定 C 连 
接 库 的 mysql use result 属性 (默认 是 mysql_buffer result)。 下 面 是 一 个 例子 : 


注 8: ”你 可 以 使 用 SQL_BUFFER_RESULT, 后 面 将 再 介绍 这 点 。 
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#!/usr/bin/perl 
use DBI; 
my $dbh = DBI->connect('DBI:mysql: ;host=localhost', ‘user’, ‘p4ssword'); 
my $sth = $dbh->prepare('SELECT * FROM HUGE TABLE’, { mysql_use_result => 1 }); 
$sth->execute() ; 
while ( my $row = $sth->fetchrow_array() ) { 
# Do something with result 


} 


注意 到 上 面 的 prepare() 调用 指定 了 mysql_use result 属性 为 1， 所 以 应 用 将 直接 “使 <23] 
用 ”返回 的 结果 集 而 不 会 将 其 缓存 。 也 可 以 在 连接 MySQL 的 时 候 指 定 这 个 属性 ， 这 会 
让 整个 连接 都 使 用 不 缓存 的 方式 处 理 结果 集 : 


my $dbh = DBI->connect('DBI:mysql: ;mysql_use_result=1', ‘user’, 'p4ssword'); 


查询 状态 

对 于 一 个 MySQL 连接 ， 或 者 说 一 个 线程 ， 任 何 时 刻 都 有 一 个 状态 ， 该 状态 表示 了 
MySQL 当前 正在 做 什么 。 有 很 多 种 方式 能 查看 当前 的 状态 ， 最 简单 的 是 使 用 SHOW FULL 
PROCESSLIST 命令 (该 命令 返回 结果 中 的 Command 列 就 表示 当前 的 状态 )。 在 一 个 查询 的 
生命 周期 中 ， 状 态 会 变化 很 多 次 。MySQL 官方 手册 中 对 这 些 状态 值 的 含义 有 最 权威 的 
解释 ， 下 面 将 这 些 状态 列 出 来 ， 并 做 一 个 简单 的 解释 。 


Sleep 
线程 正在 等 待 客户 端 发 送 新 的 请 求 。 

Query 
线程 正在 执行 查询 或 者 正在 将 结果 发 送 给 客户 端 。 

Locked 
在 MySQL 服务 器 层 ， 该 线程 正在 等 待 表 锁 。 在 存储 引擎 级 别 实 现 的 锁 ， 例 如 
InnoDB 的 行 锁 ， 并 不 会 体现 在 线程 状态 中 。 对 于 MyISAM 来 说 这 是 一 个 比较 典型 
的 状态 ， 但 在 其 他 没有 行 锁 的 引擎 中 也 经 稼 会 出 现 。 

Analyzing and statistics | 
线程 正在 收集 存储 引擎 的 统计 信息 ， 并 生成 查询 的 执行 计划 。 

Copying to tmp table [on disk] 
线程 正在 执行 查询 ， 并 且 将 其 结果 集 都 复制 到 一 个 临时 表 中 ， 这 种 状态 一 般 要 么 是 
在 做 GROUP BY 操作， 要 么 是 文件 排序 操作 ， 或 者 是 UNION 操作 。 如 果 这 个 状态 后 面 
还 有 “on disk” 标 记 ， 那 表示 MySQL 正在 将 一 个 内 存 临 时 表 放 到 磁盘 上 。 

Sorting result 


线程 正在 对 结果 集 进 行 排序 。 
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Sending data 
这 表示 多 种 情况 : 线程 可 能 在 多 个 状态 之 间 传 送 数据 ， 或 者 在 生成 结果 集 ， 或 者 在 
向 客户 端 返 回 数据 。 


了 解 这 些 状态 的 基本 含义 非常 有 用 ,这 可 以 让 你 很 快 地 了 解 当前 “ 谁 正在 持 球 ””。 在 一 
个 繁忙 的 服务 器 上 ， 可 能 会 看 到 大 量 的 不 正常 的 状态 ， 例 如 statistics 正 占用 大 量 的 时 
间 。 这 通常 表示 ， 基 个 地 方 有 异常 了 ， 可 以 通过 使 用 第 3 章 的 一 些 技巧 来 诊断 到 底 是 哪 
个 环节 出 现 了 问题 。 


6.4.2 查询 缓存 注 1 

在 解析 一 个 查询 语句 之 前 ， 如 果 查 询 缓 存 是 打开 的 ， 那 么 MySQL 会 优先 检查 这 个 查询 
是 否 命 中 查询 缓存 中 的 数据 。 这 个 检查 是 通过 一 个 对 大 小 写 敏 感 的 哈 希 查找 实现 的 。 查 
询 和 缓存 中 的 查询 即使 只 有 一 个 字 节 不 同 ， 那 也 不 会 匹配 缓存 结果 和"， 这 种 情况 下 查询 
就 会 进入 下 一 阶段 的 处 理 。 


如 果 当 前 的 查询 恰好 命中 了 查询 缓存 ， 那 么 在 返回 查询 结果 之 前 MySQL 会 检查 一 次 用 
户 权 限 。 这 仍然 是 无 须 解析 查询 SQL 语句 的 ， 因 为 在 查询 缓存 中 已 经 存放 了 当前 查询 需 
要 访问 的 表 信息 。 如 果 权 限 没 有 问题 ,MySQL 会 跳 过 所 有 其 他 阶段 ， 直 接 从 缓存 中 拿 
到 结果 并 返回 给 客户 端 。 这 种 情况 下 , 查询 不 会 被 解析 , 不 用 生成 执行 计划 , 不 会 被 执行 。 
在 第 7 章 中 的 查询 缓存 一 市 ， 你 将 学 习 到 更 多 细 市 。 


6.4.3 查询 优化 处 理 

查询 的 生命 周期 的 下 一 步 是 将 一 个 SQL 转换 成 一 个 执行 计划 ，MySQL 再 依照 这 个 执行 
计划 和 存储 引擎 进行 交互 。 这 包括 多 个 子 阶段 :解析 SQL、 预 处 理 、 优 化 SQL 执行 计划 。 
这 个 过 程 中 任何 错误 (例如 语法 错误 ) 都 可 能 终止 查询 。 这 里 不 打算 详细 介绍 MySQL 
内 部 实现 ， 而 只 是 选择 性 地 介绍 其 中 几 个 独立 的 部 分 ， 在 实际 执行 中 ， 这 几 部 分 可 能 一 
起 执行 也 可 能 单独 执行 。 我 们 的 目的 是 帮助 大 家 理解 MySQL 如 何 执 行 查询 ， 以 便 写 出 
更 优秀 的 查询 。 


语法 解析 器 和 预 处 理 
首先 ，MySQL 通过 关键 字 将 SQL 语句 进行 解析 ， 并 生成 一 棵 对 应 的 “解析 树 ”。 
MySQL 解析 器 将 使 用 MySQL 语法 规则 验证 和 解析 查询 。 例 如 ， 它 将 验证 是 否 使 用 错误 


注 9: 回忆 一 下 前 面 的 客户 广 和 服务 器 的 “ 传 球 ” 上 比喻 。 一 一 译 者 注 

注 10 : 这 里 是 指 Query Cache, 译 者 注 

注 11: Percona 版 本 的 MySQL 中 提供 了 一 个 新 的 特性 ， 可 以 在 计算 查询 语句 哈 希 值 时 ， 先 将 注释 移 除 再 
算 哈 希 值 ， 这 对 于 不 同 注释 的 相同 查询 可 以 命中 相同 的 查询 缓存 结果 。 
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的 关键 字 ， 或 者 使 用 关键 字 的 顺序 是 否 正确 等 ， 再 或 者 它 还 会 验证 引号 是 否 能 前 后 正确 
匹配 。 


预 处 理 器 则 根据 一 些 MySQL 规则 进一步 检查 解析 树 是 否 合法 ， 例如， 这 里 将 检查 数据 
表 和 数据 列 是 否 存在 ， 还 会 解析 名 字 和 别名 ， 看 看 它们 是 否 有 歧义 。 


下 一 步 预 处 理 器 会 验证 权限 。 这 通常 很 快 ， 除 非 服务 器 上 有 非常 多 的 权限 配置 。 


查询 优化 器 
现在 语法 树 被 认为 是 合法 的 了 ， 并 且 由 优化 器 将 其 转化 成 执行 计划 。 一 条 查询 可 以 有 很 
多 种 执行 方式 ， 最 后 都 返回 相同 的 结果 。 优 化 器 的 作用 就 是 找到 这 其 中 最 好 的 执行 计划 。 


MySQL 使 用 基于 成 本 的 优化 器 ， 它 将 尝试 预测 一 个 查询 使 用 某 种 执行 计划 时 的 成 本 ， 
并 选择 其 中 成 本 最 小 的 一 个 。 最 初 ， 成 本 的 最 小 单位 是 随机 读 取 一 个 4K 数据 页 的 成 本 ， 
后 来 (成 本 计算 公式 ) 变 得 更 加 复杂 ， 并 且 引 入 了 一 些 “ 因 子 ” 来 估算 某 些 操作 的 代价 ， 
如 当 执 行 一 次 WHERE 条 件 比 较 的 成 本 。 可 以 通过 查询 当前 会 话 的 Last_ query cost 的 值 
来 得 知 MySQL 计算 的 当前 查询 的 成 本 。 


mea? aimed SQL_NO_CACHE COUNT(*) FROM sakila.film_actor; 


| Variable name | Value | 
+----------------- +------------- 十 
Last_query_ cost | 1040.599000 | 


这 个 结果 表示 MySQL 的 优化 器 认为 大 概 需 要 做 1 040 个 数据 页 的 随机 查找 才能 完成 上 
面 的 查询 。 这 是 根据 一 系列 的 统计 信息 计算 得 来 的 : 每 个 表 或 者 索引 的 页 面 个 数 、 索 引 
的 基数 (索引 中 不 同 值 的 数量 )、 索 引 和 数据 行 的 长 度 、 索 引 分 布 情况 。 优 化 器 在 评估 
成 本 的 时 候 并 不 考虑 任何 层面 的 缓存 ， 它 假设 读 取 任 何 数据 都 需要 一 次 磁盘 IO。 


有 很 多 种 原因 会 导致 MySQL 优化 器 选择 错误 的 执行 计划 ， 如 下 所 示 : 


。 统计 信息 不 准确 。MySQL 依赖 存储 引擎 提供 的 统计 信息 来 评估 成 本 ,但 是 有 的 存储 
引擎 提供 的 信息 是 准确 的 ， 有 的 偏差 可 能 非常 大 。 例 如 ，InnoDB 因为 其 MVCC 的 
架构 ， 并 不 能 维护 一 个 数据 表 的 行 数 的 精确 统计 信息 。 

。 执行 计划 中 的 成 本 估算 不 等 同 于 实际 执行 的 成 本 。 所 以 即使 统计 信息 精准 ， 优 化 器 
给 出 的 执行 计划 也 可 能 不 是 最 优 的 。 例 如 有 时 候 某 个 执行 计划 虽然 需要 读 取 更 多 的 
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页 面 ， 但 是 它 的 成 本 却 更 小 。 因 为 如 果 这 些 页 面 都 是 顺序 读 或 者 这 些 页 面 都 已 经 在 
内 存 中 的 话 ， 那 么 它 的 访问 成 本 将 很 小 。MySQL 层面 并 不 知道 哪些 页 面 在 内 存 中 、 
哪些 在 磁盘 上 ， 所 以 查询 实际 执行 过 程 中 到 底 需 要 多 少 次 物理 1/O 是 无 法 得 知 的 。 

。 MySQL 的 最 优 可 能 和 你 想 的 最 优 不 一 样 。 你 可 能 希望 执行 时 间 尽 可 能 的 短 ， 但 是 
MySQL 只 是 基于 其 成 本 模型 选择 最 优 的 执行 计划 ， 而 有 些 时 候 这 并 不 是 最 快 的 执行 
方式 。 所 以 ， 这 里 我 们 看 到 根据 执行 成 本 来 选择 执行 计划 并 不 是 完美 的 模型 。 

© MySQL 从 不 考虑 其 他 并 发 执行 的 查询 ， 这 可 能 会 影响 到 当前 查询 的 速度 。 

。 MySQL 也 并 不 是 任何 时 候 都 是 基于 成 本 的 优化 。 有 时 也 会 基于 一 些 固定 的 规则 ， 例 
如 ， 如 果 存 在 全 文 搜索 的 MATCH() 子 句 ， 则 在 存在 全 文 索 引 的 时 候 就 使 用 全 文 索引 。 
即使 有 时候 使 用 别 的 索引 和 WHERE 条 件 可 以 远 比 这 种 方式 要 快 ，MySQL 也 仍然 会 使 
用 对 应 的 全 文 索引 。 

。 MySQL 不 会 考虑 不 受 其 控制 的 操作 的 成 本 ， 例 如 执行 存储 过 程 或 者 用 户 自 定义 函数 
的 成 本 。 

。 ”后 面 我 们 还 会 看 到 ， 优 化 器 有 时 候 无 法 去 估算 所 有 可 能 的 执行 计划 ， 所 以 它 可 能 
过 实际 上 最 优 的 执行 计划 。 | 


MySQL 的 查询 优化 器 是 一 个 非常 复杂 的 部 件 ， 它 使 用 了 很 多 优化 策略 来 生成 一 个 最 优 
的 执行 计划 。 优 化 策略 可 以 简单 地 分 为 两 种 ， 一 种 是 静态 优化 ， 一 种 是 动态 优化 。 静 态 
优化 可 以 直接 对 解析 树 进行 分 析 ， 并 完成 优化 。 例 如 ， 优 化 器 可 以 通过 一 些 简单 的 代数 
变换 将 WHERE 条 件 转换 成 另 一 种 等 价 形式 。 静 态 优 化 不 依赖 于 特别 的 数值 ， 如 WHERE 条 
件 中 带 入 的 一 些 常 数 等。 静态 优化 在 第 一 次 完成 后 就 一 直 有 效 ， 即 使 使 用 不 同 的 参数 重 
复 执行 查询 也 不 会 发 生变 化 。 可 以 认为 这 是 一 种 “编译 时 优化 ”。 


相反 ， 动 态 优化 则 和 查询 的 上 下 文 有 关 ， 也 可 能 和 很 多 其 他 因素 有 关 ， 例 如 WHERE 条 件 
中 的 取 值 、 索 引 中 人 条目 对 应 的 数据 行 数 等 。 这 需要 在 每 次 查询 的 时 候 都 重新 评估 ， 可 以 
认为 这 是 “运行 时 优化 ”。 

在 执行 语句 和 存储 过 程 的 时 候 ， 动 态 优化 和 静态 优化 的 区 别 非常 重要 。MySQL 对 查询 
的 静态 优化 只 需要 做 一 次 ,但 对 查询 的 动态 优化 则 在 每 次 执行 时 都 需要 重新 评估 。 有 时 
候 甚至 在 查询 的 执行 过 程 中 也 会 重新 优化 。 


下 面 是 一 些 MySQL 能 够 处 理 的 优化 类 型 ， 


重新 定义 关联 表 的 顺序 
数据 表 的 关联 并 不 总 是 按照 在 查询 中 指定 的 顺序 进行 。 决 定 关联 的 顺序 是 优化 器 很 


注 12 : 例如 ， 在 关联 操作 中 ， 范 围 检 查 的 执行 计划 会 针对 每 一 行 重新 评估 索引 。 可 以 通过 EXPLAIN 执行 
计划 中 的 Extra 列 是 否 有 “range checked for each record” 来 确认 这 一 点 。 该 执行 计划 还 会 增加 
select_full_range join 这 个 服务 器 变量 的 值 。 
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重要 的 一 部 分 功能 ， 本 章 后 面 将 深入 介绍 这 一 所。 

将 外 连接 转化 成 内 连接 
并 不 是 所 有 的 OUTER JOIN 语句 都 必须 以 外 连接 的 方式 执行 。 诸 多 因素 ， 例 如 WHERE 
条 件 、 库 表 结 构 都 可 能 会 让 外 连接 等 价 于 一 个 内 连接 。MySQL 能 够 识别 这 点 并 重 写 
查询 ， 让 其 可 以 调整 关联 顺序 。 

使 用 等 价 变换 规则 
MySQL 可 以 使 用 一 些 等 价 变换 来 简化 并 规范 表达 式 。 它 可 以 合并 和 减少 一 些 比 较 ， 
还 可 以 移 除 一 些 恒 成 立 和 一 些 恒 不 成 立 的 判断 。 例 如 ，(5=5 AND a>5) 将 被 改写 为 
a>5。 类 似 的 ， 如 果 有 (a<b AND b=c) AND a=5 则 会 改写 为 b>5 AND b=c AND a=5, 
这 些 规则 对 于 我 们 编写 条 件 语句 很 有 用 ， 我 们 将 在 本 章 后 续 继 续 讨论 。 

优化 COUNT()、MIN() 和 MAX() 
索引 和 列 是 否 可 为 空 通常 可 以 帮助 MYSQL 优化 这 类 表达 式 。 例 如 ， 要 找到 某 一 列 
的 最 小 值 ， 只 需要 查询 对 应 B-Tree 索引 最 左 端 的 记录 ，MySQL 可 以 直接 获取 索引 
的 第 一 行 记 录 。 在 优化 器 生成 执行 计划 的 时 候 就 可 以 利用 这 一 点 , 在 B-Tree 索引 中 ， 
优化 器 会 将 这 个 表达 式 作为 一 个 常数 对 待 。 类 似 的 ,如果 要 查找 一 个 最 大 值 ， 也 只 
需 读 取 B-Tree 索引 的 最 后 一 条 记录 。 如 果 MySQL 使 用 了 这 种 类 型 的 优化 ， 那 么 在 
EXPLAIN 中 就 可 以 看 到 “Select tables optimized away”。 从 字面 意思 可 以 看 出 ， 它 表 
示 优 化 器 已 经 从 执行 计划 中 移 除 了 该 表 ， 并 以 一 个 常数 取而代之 。 
类 似 的 ， 没 有 任何 WHERE 条 件 的 COUNT(*) 查询 通常 也 可 以 使 用 存储 引擎 提供 的 一 些 
优化 (例如 ，MyISAM 维护 了 一 个 变量 来 存放 数据 表 的 行 数 )。 

预 估 并 转化 为 常数 表达 式 
MySQL 检测 到 一 个 表达 式 可 以 转化 为 常数 的 时 候 ， 就 会 一 直 把 该 表达 式 作 为 常 
数 进行 优化 处 理 。 例 如 ， 一 个 用 户 自 定义 变量 在 查询 中 没有 发 生变 化 时 就 可 以 转换 
为 一 个 常数 。 数 学 表达 式 则 是 另 一 种 典型 的 例子 。 
让 人 惊讶 的 是 ， 在 优化 阶段 ， 有 了 时候 其 至 一 个 查询 也 能 够 转化 为 一 个 常数 。 一 个 例 
子 是 在 索引 列 上 执行 MIN() 函数 。 蕉 至 是 主键 或 者 唯一 键 查找 语句 也 可 以 转换 为 常 
数 表达 式 。 如 果 WHERE 子 句 中 使 用 了 该 类 索引 的 常数 条 件 ，MySQL 可 以 在 查询 开 
始 阶 段 就 先 查 找到 这 些 值 ， 这 样 优化 器 就 能 够 知道 并 转换 为 常数 表达 式 。 下 面 是 一 
个 例子 : 

mysql> EXPLAIN SELECT film.film id, film actor.actor id 
-> FROM sakila.film 


-> INNER JOIN sakila.film actor USING(film id) 
-> WHERE film. x id = 1; 


+----+-------------+------------ +------- +---------------- +------- +------ 十 
| id | select type | table | type | key | ref | rows | 
+----+-------------+------------ +------- +---------------- +------- +------ + 
| 1 | SIMPLE | film | const | PRIMARY | const | 1| 
| 1 | SIMPLE | film actor | ref | idx fk film id | const | 10 | 
+----+------------- +------------ +------- +---------------- +------- +------ + 
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MySQL 分 两 步 来 执行 这 个 查询 , 也 就 是 上 面 执行 计划 的 两 行 输出 。 第 一 步 先 从 Film 
表 找 到 需要 的 行 。 因 为 在 film id 字段 上 有 主键 索引 , 所 以 MySQL 优化 器 知道 这 只 
会 返回 一 行 数据 ， 优 化 左 在 生成 执行 计划 的 时 候 ， 束 已 经 通过 索引 信息 知道 将 返回 
多 少 行 数据 。 因 为 优化 器 已 经 明确 知道 有 多 少 个 值 (WHERE 条件 中 的 值 ) 需要 做 索 
引 查询 ， 所 以 这 里 的 表 访 问 类 型 是 const。 
在 执行 计划 的 第 二 步 ，MySQL 将 第 一 步 中 返回 的 film id 列 当 作 一 个 已 知 取 值 的 列 
来 处 理 。 因 为 优化 器 清楚 在 第 一 步 执行 完成 后 ， 该 值 就 会 是 明确 的 了 。 注 意 到 正如 
第 一 步 中 一 样 ， 使 用 fm_actor 字段 对 表 的 访问 类 型 也 是 const. 
另 一 种 会 看 到 常数 条 件 的 情况 是 通过 等 式 将 常数 值 从 一 个 表 传 到 另 一 个 表 ， 这 可 以 
通过 WHERE, USING 或 者 ON 语句 来 限制 某 列 取 值 为 常数 。 在 上 面 的 例子 中 ， 因 为 使 
用 了 USING 子 句 , 优化 器 知道 这 也 限制 了 film id 在 整个 查询 过 程 中 都 始终 是 一 个 常 
量 一 一 因为 它 必须 等 于 WHERE 子 句 中 的 那个 取 值 。 

徐 盖 索引 扫描 
当 索 引 中 的 列 包 含 所 有 查询 中 需要 使 用 的 列 的 时 候 ，MySQL 就 可 以 使 用 索引 返回 需 
要 的 数据 ， 而 无 须 查 询 对 应 的 数据 行 ， 在 前 面 的 章节 中 我 们 已 经 讨论 过 这 点 了 。 

子 查询 优化 
MySQL 在 某 些 情况 下 可 以 将 子 查 询 转换 一 种 效率 更 高 的 形式 ， 从 而 减少 多 个 查询 多 
次 对 数据 进行 访问 。 

提前 终止 查询 
在 发 现 已 经 满足 查询 需求 的 时 候 ，MySQL 总 是 能 够 立刻 终止 查询 。 一 个 典型 的 例子 
就 是 当 使 用 了 LIMIT 子 句 的 时 候 。 除 此 之 外 ，MySQL 还 有 几 类 情况 也 会 提前 终止 查 
询 ， 例 如 发 现 了 一 个 不 成 立 的 条 件 ， 这 时 MySQL 可 以 立刻 返回 一 个 空 结 果 。 从 下 
面 的 例子 可 以 看 到 这 一 所 : 

mysql> EXPLAIN SELECT film.film_id FROM sakila.film WHERE film_ = -1; 


+----+。。.+----------------------------------------------------- 
| i id wo .| Extra | 


+----+。 
1 a: | Impossible WHERE noticed after reading const tables | 
+----+。 


从 这 个 例子 看 到 查询 在 优化 阶段 就 已 经 终止 。 除 此 之 外 ，MySQL 在 执行 过 程 中 ， 如 
果 发 现 某 些 特殊 的 条 件 ， 则 会 提前 终止 查询 。 当 存储 引擎 需要 检索 “不 同 取 值 ”或 
者 判断 存在 性 的 时 候 ，MySQL 都 可 以 使 用 这 类 优化 。 例 如 ， 我 们 现在 需要 找到 没有 
演员 的 所 有 电影 和 ， 


注 13 : 一 部 电影 没有 演员 ， 是 有 点 奇怪 。 不 过 在 示例 数据 库 Sakila 中 影片 SLACKER LIAISONS 没有 任何 
演员 ， 它 的 描述 是 “党 鱼 和 见识 过 中 国 古 代 鲍 鱼 的 学 生 的 简短 传说 ”。 
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mysql> SELECT film.film_id 

-> FROM sakila.film 

-> LEFT OUTER JOIN sakila.film_actor USING(film_id) 

-> WHERE film_actor.film_id IS NULL; 
这 个 查询 将 会 过 滤 掉 所 有 有 演员 的 电影 。 每 一 部 电影 可 能 会 有 很 多 的 演员 ,但 是 上 
面 的 查询 一 旦 找到 任何 一 个 ,就 会 停止 并 立刻 判断 下 一 部 电影 ,因为 只 要 有 一 名 演员 ， 
那么 WHERE 条 件 则 会 过 滤 掉 这 类 电影 。 类 似 这 种 “不 同 值 /不 存在 ”的 优化 一 般 可 
用 于 DISTINCT、NOT EXIST() 或 者 LEFT JOIN 类 型 的 查询 。 


等 值 传 播 
如 果 两 个 列 的 值 通 过 等 式 关联 ， 那 么 MySQL 能 够 把 其 中 一 个 列 的 WHERE 条 件 传递 
到 另 一 列 上 。 例 如 ， 我 们 看 下 面 的 查询 : 
mysql> SELECT film.film_id 

-> FROM sakila.film 

-> INNER JOIN sakila.film_actor USING(film_id) 

-> WHERE film.film_id > 500; 
因为 这 里 使 用 了 film id 字段 进行 等 值 关联 ，MySQL 知道 这 里 的 WHERE 子 句 不 仅 适 
用 于 ffm 表 ,而 且 对 于 film_actor 表 同样 适用 。 如 果 使 用 的 是 其 他 的 数据 库 管 理 系 统 ， 
可 能 还 需要 手动 通过 一 些 条 件 来 告知 优化 器 这 个 WHERE 条 件 适 用 于 两 个 表 ， 那 么 写 


.。. WHERE film.film_id > 500 AND film_actor.film_id > 500 


在 MySQL 中 这 是 不 必要 的 ， 这 样 写 反而 会 让 查询 更 难 维护 。 

列表 IN() 的 比较 

在 很 多 数据 库 系 统 中 ，IN ( ) 完全 等 同 于 多 个 0R 条件 的 子 句 ， 因 为 这 两 者 是 完全 等 
价 的 。 在 MySQL 中 这 点 是 不 成 立 的 ，MySQL 将 IN( ) 列表 中 的 数据 先进 行 排序 ， 
然后 通过 二 分 查找 的 方式 来 确定 列表 中 的 值 是 否 满足 条 件 ， 这 是 一 个 O(log n) 复杂 
度 的 操作 ， 等 价 地 转换 成 OR 查询 的 复杂 度 为 O(n)， 对 于 IN() 列表 中 有 大 量 取 值 的 
时 候 ，MySQL 的 处 理 速度 将 会 更 快 。 


上 面 列 举 的 远 不 是 MySQL 优化 器 的 全 部 ，MySQL 还 会 做 大 量 其 他 的 优化 ， 即 使 本 章 全 
部 用 来 描述 也 会 篇 幅 不 足 ， 但 上 面 的 这 些 例子 已 经 足以 让 大 家 明白 优化 器 的 复杂 性 和 智 
能 性 了 。 如 果 说 从 上 面 这 段 讨 论 中 我 们 应 该 学 到 什么 ， 那 就 是 “不 要 自 以 为 比 优化 器 更 
聪明 "。 最 终 你 可 能 会 占 乓 便宜， 但 是 更 有 可 能 会 使 查询 变 得 更 加 复杂 而 难以 维护 ， 而 
最 终 的 收益 却 为 零 。 让 优化 器 按照 它 的 方式 工作 就 可 以 了 。 
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当然 ， 虽 然 优 化 器 已 经 很 智能 了 ， 但 是 有 时 候 也 无 法 给 出 最 优 的 结果 。 有 时候 你 可 能 比 
优化 器 更 了 解数 据 ， 例 如 ， 由 于 应 用 逻辑 使 得 某 些 条 件 总 是 成 立 ; 还 有 时 ， 优 化 器 缺少 
某 种 功能 特性 ， 如 哈 希 索引 ; 再 如 前 面 提 到 的 ， 从 优化 器 的 执行 成 本 角度 评估 出 来 的 最 
优 执行 计划 ， 实 际 运行 中 可 能 比 其 他 的 执行 计划 更 慢 。 

如 果 能 够 确认 优化 器 给 出 的 不 是 最 佳 选择 ， 并 且 清 楚 背 后 的 原理 ， 那 么 也 可 以 帮助 优化 


器 做 进一步 的 优化 。 例 如 ， 可 以 在 查询 中 添加 hint 提示 ， 也 可 以 重 写 查 询 ， 或 者 重新 设 
计 更 优 的 库 表 结 构 ， 或 者 添加 更 合适 的 索引 。 


数据 和 索引 的 统计 信息 

重新 回忆 一 下 图 1-1，MySQL 架构 由 多 个 层次 组 成 。 在 服务 器 层 有 查询 优化 器 ， 却 没有 
保存 数据 和 索引 的 统计 信息 。 统 计 信 息 由 存储 引 警 实现， 不同 的 存储 引擎 可 能 会 存储 不 
同 的 统计 信息 〈 也 可 以 按照 不 同 的 格式 存储 统计 信息 )。 某 些 引 擎 ， 例 如 Archive 51%, 
则 根本 就 没有 存储 任何 统计 信息 ! | 


因为 服务 器 层 没 有 任何 统计 信息 ， 所 以 MySQL 查询 优化 器 在 生成 查询 的 执行 计划 时 ， 


需要 向 存储 引擎 获取 相应 的 统计 信息 。 存 储 引 擎 则 提供 给 优化 器 对 应 的 统计 信息 ， 包 括 : 


每 个 表 或 者 索引 有 多 少 个 页 面 、 每 个 表 的 每 个 索引 的 基数 是 多 少 、 数 据 行 和 索引 长 度 、 
索引 的 分 布 信息 等 。 优 化 器 根据 这 些 信息 来 选择 一 个 最 优 的 执行 计划 。 在 后 面 的 小 节 中 
我 们 将 看 到 统计 信息 是 如 何 影响 优化 器 的 。 


MySQL 如 何 执行 关联 查询 

MySQL 中 “关联 ”于 “一 词 所 包含 的 意义 比 一 般 意义 上 理解 的 要 更 广泛 。 总 的 来 说 ， 
MySQL 认为 任何 一 个 查询 都 是 一 次 “关联 ”一 一 并 不 仅仅 是 一 个 查询 需要 到 两 个 表 
匹配 才 叫 关联 ， 所 以 在 MySQL 中 ， 每 一 个 查询 ， 每 一 个 片段 〈 包 括 子 查询 ， 甚 至 基 
于 单 表 的 SELECT) 都 可 能 是 关联 。 


所 以 ， 理 解 MySQL 如 何 执 行 关联 查询 至 关 重要 。 我 们 先 来 看 一 个 UNION 查询 的 例子 。 
对 于 UNION 查询 ，MySQL 先 将 一 系列 的 单个 查询 结果 放 到 一 个 临时 表 中 ， 然 后 再 重新 
读 出 临时 表 数 据 来 完成 UNION 查询 。 在 MySQL 的 概念 中 ， 每 个 查询 都 是 一 次 关联 ， 所 
以 读 取 结果 临时 表 也 是 一 次 关联 。 


当前 MySQL 关联 执行 的 策略 很 简单 : MySQL 对 任何 关联 都 执行 伐 套 循环 关联 操作 ， 即 
MySQL 先 在 一 个 表 中 循环 取出 单条 数据 ， 然 后 再 峰 套 循环 到 下 一 个 表 中 寻找 匹配 的 行 ， 
依次 下 去 ， 直 到 找到 所 有 表 中 匹配 的 行为 止 。 然 后 根据 各 个 表 匹 配 的 行 ， 返 回 查询 中 需 
要 的 各 个 列 。MySQL 会 尝试 在 最 后 一 个 关联 表 中 找到 所 有 匹配 的 行 ， 如 有 果 最 后 一 个 关 


注 14 : join。 一 一 译 者 注 
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联 表 无 法 找到 更 多 的 行 以 后 ，MySQL 返回 到 上 一 层次 关联 表 ， 看 是 否 能 够 找到 更 多 的 


匹配 记录 ， 依 此 类 推 迭 代 执 行 。 "3 


按照 这 样 的 方式 查找 第 一 个 表 记 录 ， 再 姓 套 查询 下 一 个 关联 表 ， 然 后 回溯 到 上 一 个 表 ， 
在 MySQL 中 是 通过 手套 循环 的 方式 实现 一 一 正如 其 名 “ 嵌 套 循环 关联 。 请 看 下 面 的 例 


子 中 的 简单 查询 : 
mysql> SELECT tbl1.col1, tbl2.col2 
-> FROM tbl1 INNER JOIN tbl2 USING(col3) 
-> WHERE tbl1.col1 IN(5,6); 


假设 MySQL 按照 查询 中 的 表 顺 序 进 行 关联 操作 ， 我 们 则 可 以 用 下 面 的 伪 代 码 表示 


MySQL 将 如 何 完成 这 个 查询 : 


outer iter = iterator over tbl1 where coli IN(5,6) 
outer row = outer_iter.next 
while outer_row 
inner_iter = iterator over tbl2 where col3 = outer_row.col3 
inner row = inner_iter.next 
while inner_row 
output [ outer _row.coli, inner_row.col2 ] 
inner_row = inner_iter.next 
end 
outer row = outer_iter.next 
end 


上 面 的 执行 计划 对 于 单 表 查 询 和 多 表 关 联 查询 都 适用 ， 如 果 是 一 个 单 表 查询 ， 那 么 只 需 
完成 上 面 外 层 的 基本 操作 。 对 于 外 连接 上 面 的 执行 过 程 仍然 适用 。 例 如 ， 我 们 将 上 面 查 


mysql> SELECT tbl1.col1, tbl2.col2 
-> FROM tbl1 LEFT OUTER JOIN tb12 USING(col3) 
-> WHERE tbli.coli IN(5,6); 


SARA, RAR AA AEBS : 


outer iter = iterator over tbl1 where coli IN(5,6) 
outer row = outer_iter.next 
while outer_row 
inner_iter = iterator over tbl2 where col3 = outer_row.col3 
inner_row = inner_iter.next 
if inner_row 
while inner_row 
output [ outer_row.coli, inner_row.col2 | 
inner_row = inner_iter.next 
end 


注 15 : 后 面 我 们 会 看 到 MySQL 查询 执行 过 程 并 没有 这 么 简单 ，MySQL 做 了 很 多 优化 操作 。 
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else 
output [ outer_row.col1, NULL ] 
end 
outer_row = outer_iter.next 
end 


Fa — FF AY CES AT tS SH AR A os BT BR ES a PA “PKS”. Bn 
图 6-2 所 示 ， 绘 制 了 前 面 示例 中 内 连接 的 泡 道 图 ， 请 从 左 至 右 ， 从 上 至 下 地 看 这 幅 图 。 
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图 6-2: 通过 泳 道 图 展示 MySQL 如 何 完成 关联 查询 


从 本 质 上 说 ，MySQL 对 所 有 的 类 型 的 查询 都 以 同样 的 方式 运行 。 例 如 ，MySQL 在 FROM 
子 句 中 遇 到 子 查询 时 ， 先 执行 子 查询 并 将 其 结果 放 到 一 个 临时 表 中 < “， 然 后 将 这 个 临时 
表 当 作 一 个 普通 表 对 待 (正如 其 名 “派生 表 ”)。MySQL 在 执行 UNION 查询 时 也 使 用 类 
似 的 临时 表 ， 在 遇 到 右 外 连接 的 时 候 ，MySQL 将 其 改写 成 等 价 的 左 外 连接 。 简 而 言 之 ， 
当前 版 本 的 MySQL 会 将 所 有 的 查询 类 型 都 转换 成 类 似 的 执行 计划 。 宇 "” 


不 过 ,不 是 所 有 的 查询 都 可 以 转换 成 上 面 的 形式 。 例 如 ， 全 外 连接 就 无 法 通过 骨 套 循环 
和 回潮 的 方式 完成 ， 这 时 当 发 现 关 联 表 中 没有 找到 任何 匹配 行 的 时 候 ， 则 可 能 是 因为 关 
联 是 恰好 从 一 个 没有 任何 匹配 的 表 开 始 。 这 大 概 也 是 MySQL 并 不 支持 全 外 连接 的 原因 。 
还 有 些 场景 虽然 可 以 转换 成 侯 套 循环 的 方式 ， 但 是 效率 却 非常 差 ， 后 面 我 们 会 看 一 个 
这 样 的 例子 。 


注 16 : MySQL 的 临时 表 是 没有 任何 索引 的 ， 在 编写 复杂 的 子 查询 和 关联 查询 的 时 候 需 要 注意 这 一 点 。 这 
一 点 对 UNION 查询 也 一 样 。 
注 17 : 在 MySQL 5.6 和 MariaDB 中 有 了 重大 改变 ， 这 两 个 版 本 都 引入 了 更 加 复杂 的 执行 计划 。 
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执行 计划 

和 很 多 其 他 关系 数据 库 不 同 ，MySQL 并 不 会 生成 查询 字 节 码 来 执行 查询 。MySQL 生成 
查询 的 一 棵 指令 树 ， 然 后 通过 存储 引擎 执行 完成 这 棵 指令 树 并 返回 结果 。 最 终 的 执行 计 
划 包 含 了 重 构 查询 的 全 部 信息 。 如 果 对 某 个 查询 执行 EXPLAIN EXTENDED 后 ， 再 执行 SHOW 
WARNINGS， 就 可 以 看 到 重 构 出 的 查询 "。 


任何 多 表 查 询 都 可 以 使 用 一 棵 树 表 示 ， 例 如 ， 可 以 按照 图 6-3 执行 一 个 四 表 的 关联 操作 。 22] 





图 6-3: 多 表 关 联 的 一 种 方式 


在 计算 机 科学 中 ， 这 被 称 为 一 颗 平衡 树 。 但 是 ， 这 并 不 是 MySQL 执行 查询 的 方式 。 正 
如 我 们 前 面 章 市 介绍 的 , MySQL 总 是 从 一 个 表 开 始 一 直人 嵌 套 循环 、 回 湖 完 成 所 有 表 关 联 。 
所 以 ，MySQL 的 执行 计划 总 是 如 图 6-4 所 示 ， 是 一 棵 左 测 深度 优先 的 树 。 





6-4: MySQL 如 何 实 现 多 表 关 联 


关联 查询 优化 器 
MySQL 优化 器 最 重要 的 一 部 分 就 是 关联 查询 优化 ， 它 决定 了 多 个 表 关联 时 的 顺序 。 通 
常 多 表 关 联 的 时 候 ， 可 以 有 多 种 不 同 的 关联 顺序 来 获得 相同 的 执行 结果 。 关 联 查 询 优 化 


注 18 : MySQL 根据 执行 计划 生成 输出 。 这 和 原 查 询 有 完全 相同 的 语义 , 但 是 查询 语句 可 能 并 不 完全 相同 。 
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sa MN Se el fe AS Dd JT BY GAS HE PES FR ER ITF 
下 面 的 查询 可 以 通过 不 同 顺 序 的 关联 最 后 都 获得 相同 的 结果 : 


mysql> SELECT film.film_id, film.title, film.release_year, actor.actor_id, 
-> actor.first_name, actor.last_name 
-> FROM sakila.film 
-> INNER JOIN sakila.film actor USING(film id) 
-> INNER JOIN sakila.actor USING(actor id); 


容易 看 出 ， 可 以 通过 一 些 不 同 的 执行 计划 来 完成 上 面 的 查询 。 例 如 ，MySQL 可 以 从 
fitm 表 开始 , 使 用 film actor 表 的 索引 film id 来 查找 对 应 的 actor id 值 , 然后 再 根据 
actor 表 的 主键 找到 对 应 的 记录 。Oracle 用 户 会 用 下 面 的 术语 描述 : “film 表 作为 驱动 表 
先 查 找 fle_actor 表 ,然后 以 此 结果 为 驱动 表 再 查找 actor 表 ”。 这 样 做 效率 应 该 会 不 错 ， 
我 们 再 使 用 EXPLAIN 看 看 MySQL 将 如 何 执行 这 个 查询 : 


FRA RK AK RK KR OK KK EK OK KK KK k k OK KK Le LOW FERRER RRR ER AK kk KEK kkk 


id: 
select_type: 
table: 

type: 

possible keys: 
key: 

key_len: 

ref: 

rows: 

Extra: 


1 
SIMPLE 
actor 
ALL 
PRIMARY 
NULL 
NULL 
NULL 
200 


FER AE OK A A KK OK EE OK KOK k kk k k OK kk 2 。 LOW FREER RRR EKER KKK k kkk k kkk 


id: 
select_type: 
table: 

type: 

possible keys: 
key: 

key_len: 

ref: 

rows: 

Extra: 


1 

SIMPLE 

film_actor 

ref 
PRIMARY, idx fk _ film id 
PRIMARY 

2 
sakila.actor.actor_id 
1 

Using index 


EO OK ie ok E OK 2 a og OK KG OK k k k kkk k 3. row ARK KK OK a OK OE OK a kk k kkk kkk k kkk 


id: 
select_type: 
table: 

type: 

possible keys: 
key: 

key_len: 

ref: 

rows: 

Extra: 


1 

SIMPLE 

film 

eq_ref 

PRIMARY 

PRIMARY 

2 

sakila.film actor.film id 
1 


这 和 我 们 前 面 给 出 的 执行 计划 完全 不 同 。MySQL 从 actor 表 开始 (我 们 从 上 面 的 
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EXPLAIN 结果 的 第 一 行 输出 可 以 看 出 这 点 ) ， 然 后 与 我 们 前 面 的 计划 按照 相反 的 顺序 进行 
关联 。 这 样 是 否 效率 更 高 呢 ? 我 们 来 看 看 ， 我 们 先 使 用 STRAIGHT_JOIN 关键 字 ， 按 照 我 
们 之 前 的 顺序 执行 ， 这 里 是 对 应 的 EXPLAIN 输出 结果 : 


mysql> EXPLAIN SELECT STRAIGHT JOIN film.film_id...\G 
KARA K KAR KKK k kkk kkk kkk kkkkkkk 1 row akooo oook kk kkk 
id: 1 
select_type: SIMPLE 
table: film 
type: ALL 
possible_keys: PRIMARY 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 951 
Extra: 
a kk k kkk kkk kkk kkkkkk > row A Ae 2 2 2K Og KA 2 2K OK K E E 2 2K 2K 2K K kK k k k k 
id: 1 
select_type: SIMPLE 
table: film_actor 
type: ref 
possible keys: PRIMARY,idx fk film id 
key: idx fk film id 
key_len: 2 
ref: sakila.film.film_ id 
rows: 1 i 
Extra: Using index 
EEEE KEE 2 EK E k E kkk k kkk kk 3. Yow EO A A I oe E E A E OK k k kk OK KK 
id: 1 
select_type: SIMPLE 
table: actor 
type: eq_ref 
possible keys: PRIMARY 
key: PRIMARY 
key len: 2 
ref: sakila.film_actor.actor_id 
rows: 1 
Extra: 


我 们 来 分 析 一 下 为 什么 MySQL 会 将 关联 顺序 倒转 过 来 : ， 关联 顺序 倒转 后 
第 一 个 关联 表 只 需要 扫描 很 少 的 行 数 “"。 在 两 种 关联 顺序 p 
是 根据 索引 查询 ， 速 度 都 很 快 ， oR ee ge et 


。 将 film 表 作为 第 一 个 关联 表 时 , 会 找到 951 条 记录 , 然后 对 film actor 和 actor 表 
HREAN. 
© 如果 MySQL 选择 首先 扫描 actor 表 ， 只 会 返回 200 KURET EARE. 


注 19 : PRR, MySQL 并 不 根据 读 取 的 记录 来 选择 最 优 的 执行 计划 。 实 际 上 ，MySQL 通过 预 估 需要 
读 取 的 数据 页 来 选择 ， 读 取 的 数据 页 越 少 越 好 。 不 过 读 取 的 记录 数 通常 能 够 很 好 地 反映 一 个 查询 
的 成 本 。 
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换 句 话说 ， 倒 转 的 关联 顺序 会 让 查询 进行 更 少 的 伐 套 循环 和 回潮 操作 。 为 了 验证 优化 器 
的 选择 是 否 正确 ， 我 们 单独 执行 这 两 个 查询 ， 并 且 看 看 对 应 的 Last_query_cost 状态 值 。 
我 们 看 到 倒转 的 关联 顺序 的 预 估 成 本 和 ”为 241， 而 原来 的 查询 的 预 估 成 本 为 1 154。 


这 个 简单 的 例子 主要 想 说 明 MySQL 是 如 何 选择 合适 的 关联 顺序 来 让 查询 执行 的 成 本 尽 
可 能 低 的 。 重 新 定义 关联 的 顺序 是 优化 器 非常 重要 的 一 部 分 功能 。 不 过 有 的 时 候 ， 优 化 
器 给 出 的 并 不 是 最 优 的 关联 顺序 。 这 时 可 以 使 用 STRAIGHT JOIN 关键 字 重 写 查询 ， 让 优 
化 器 按照 你 认为 的 最 优 的 关联 顺序 执行 一 一 不 过 老实 说 ， 人 的 判断 很 难 那 么 精准 。 绝 大 
多 数 时 候 ， 优 化 器 做 出 的 选择 都 比 普通 人 的 判断 要 更 准确 。 


关联 优化 器 会 尝试 在 所 有 的 关联 顺序 中 选择 一 个 成 本 最 小 的 来 生成 执行 计划 树 。 如 果 可 
能 ， 优 化 器 会 遍历 每 一 个 表 然 后 逐个 做 仍 套 循环 计算 每 一 棵 可 能 的 执行 计划 树 的 成 本 ， 
最 后 返回 一 个 最 优 的 执行 计划 。 


不 过 ， 糟 糕 的 是 ， 如 果 有 超过 n 个 表 的 关联 ， 那 么 需要 检查 n 的 阶乘 种 关联 顺序 。 我 们 
称 之 为 所 有 可 能 的 执行 计划 的 “搜索 空间 ”， 搜 索 空 间 的 增长 速度 非常 块 一 一 例如 ， 若 
是 10 个 表 的 关联 ， 那 么 共有 3 628 800 种 不 同 的 关联 顺序 ! 当 搜 索 空间 非常 大 的 时 候 ， 
优化 器 不 可 能 逐一 评估 每 一 种 关联 顺序 的 成 本 。 这 时 ， 优 化 器 选择 使 用 “ 贪 禁 ”搜索 的 
方式 查找 “最 优 ” 的 关联 顺序 。 实 际 上 ， 当 需要 关联 的 表 超过 optimizer_search_depth 
的 限制 的 时 候 ， 就 会 选择 “ 贪 转 ” 搜 索 模 式 了 (optimizer_search_depth 参数 可 以 根据 
需要 指定 大 小 )。 


在 MySQL 这 些 年 的 发 展 过 程 中 ， 优 化 器 积累 了 很 多 “启发 式 ” 的 优化 策略 来 加 速 执行 
计划 的 生成 。 绝 大 多 数 情况 下 ,这 都 是 有 效 的 ,但 因为 不 会 去 计算 每 一 种 关联 顺序 的 成 本 ， 
所 以 偶尔 也 会 选择 一 个 不 是 最 优 的 执行 计划 。 


有 时 ， 各 个 查询 的 顺序 并 不 能 随意 安排 ， 这 时 关联 优化 器 可 以 根据 这 些 规则 大 大 减少 搜 
索 空 间 ， 例 如 ， 左 连接 、 相 关子 查询 (后 面 我 将 继续 讨论 子 查询 )。 这 是 因为 ， 后 面 的 
表 的 查询 需要 依赖 于 前 面 表 的 查询 结果 。 这 种 依赖 关系 通常 可 以 帮助 优化 器 大 大 减少 需 
要 扫描 的 执行 计划 数量 。 





排序 优化 
无 论 如 何 排序 都 是 一 个 成 本 很 高 的 操作 ， 所 以 从 性 能 角度 考虑 ， 应 尽 可 能 避免 排序 或 者 
尽 可 能 避免 对 大 量 数据 进行 排序 。 


在 第 3 章 中 我 们 已 经 看 到 MySQL 如 何 通过 索引 进行 排序 。 当 不 能 使 用 索引 生成 排序 结 


注 20 : 查询 的 cost, ——i## iz 
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FARE, MySQL 需要 自己 进行 排序 ， 如 果 数 据 量 小 则 在 内 存 中 进行 ， 如 果 数 据 量 大 
则 需要 使 用 磁盘 ， 不 过 MySQL 将 这 个 过 程 统一 称 为 文件 排序 (filesort)， 即 使 完全 是 内 
存 排序 不 需要 任何 磁盘 文件 时 也 是 如 此 。 


如 果 需 要 排序 的 数据 量 小 于 “排序 缓冲 区 ”，MySQL 使 用 内 存 进行 “快速 排序 ” 操 
作 。 如 果 内 存 不 够 排序 ， 那 么 MySQL 会 先 将 数据 分 块 ， 对 每 个 独立 的 块 使 用 “快速 排 


序 ” 进 行 排 序 ， 并 将 各 个 块 的 排序 结果 存放 在 磁盘 上 ， 然 后 将 各 个 排 好 序 的 块 进行 合并 


(merge) ， 最 后 返回 排序 结果 。 
MySQL 有 如 下 两 种 排序 算法 : 


两 次 传输 排序 〈 旧 版 本 使 用 ) 
读 取 行 指针 和 需要 排序 的 字段 ， 对 其 进行 排序 ， 然 后 再 根据 排序 结果 读 取 所 需要 的 
数据 行 。 
这 需要 进行 两 次 数据 传输 ， 即 需要 从 数据 表 中 读 取 两 次 数据 ， 第 二 次 读 取 数 据 的 时 
候 ， 因 为 是 读 取 排 序列 进行 排序 后 的 所 有 记录 ， 这 会 产生 大 量 的 随机 IO， 所 以 两 
次 数据 传输 的 成 本 非常 高 。 当 使 用 的 是 MyISAM 表 的 时 候 ， 成 本 可 能 会 更 高 ， 因 为 
MyISAM 使 用 系统 调用 进行 数据 的 读 取 (MyISAM 非常 依赖 操作 系统 对 数据 的 组 
存 )。 不 过 这 样 做 的 优点 是 ， 在 排序 的 时 候 存 储 尽 可 能 少 的 数据 ， 这 就 让 “排序 缓冲 
K” E 中 可 能 容纳 尽 可 能 多 的 行 数 进行 排序 。 

单 次 传输 排序 (新 版 本 使 用 ) 
先 读 取 查询 所 需要 的 所 有 列 ， 然 后 再 根据 给 定 列 进行 排序 ， 最 后 直接 返回 排序 结果 。 
这 个 算法 只 在 MySQL 4.1 和 后 续 更 新 的 版 本 才 引 入 。 因 为 不 再 需要 从 数据 表 中 读 取 
两 次 数据 ,对 于 IO 密集 型 的 应 用 ,这 样 做 的 效率 高 了 很 多 。 男 外 , 相 比 两 次 传输 排序 ， 
这 个 算法 只 需要 一 次 顺序 VO 读 取 所 有 的 数据 ， 而 无 须 任何 的 随机 IO., thE, 20 
果 需 要 返回 的 列 非常 多 、 非 常 大 ， 会 额外 占用 大 量 的 空间 ， 而 这 些 列 对 排序 操作 本 
身 来 说 是 没有 任何 作用 的 。 因 为 单条 排序 记录 很 大 ， 所 以 可 能 会 有 更 多 的 排序 块 需 
要 合并 。 
很 难说 哪个 算法 效率 更 高 ， 两 种 算法 都 有 各 自 最 好 和 最 粳 的 场景 。 当 查询 需要 所 有 
列 的 总 长 度 不 超过 参数 max_ length for_ sort data 时 ，MySQL 使 用 “ 单 次 传输 排 
序 ， 可 以 通过 调整 这 个 参数 来 影响 MySQL 排序 算法 的 选择 。 关 于 这 个 细节 ， 可 以 
参考 第 8 章 “ 文 件 排 序 优化 ”。 


MySQL 在 进行 文件 排序 的 时 候 需 要 使 用 的 临时 存储 空间 可 能 会 比 想象 的 要 大 得 多 。 原 
HEF MySQL 在 排序 时 ， 对 每 一 个 排序 记录 都 会 分 配 一 个 足够 长 的 定 长 空间 来 存放 。 


注 21 : 内 存 。 一 一 译 者 注 
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这 个 定 长 空间 必须 足够 长 以 容纳 其 中 最 长 的 字符 串 ， 例 如 ， 如 果 是 VARCHAR 列 则 需要 分 
配 其 完整 长 度 ; 如 果 使 用 UTF-8 字符 集 ， 那 么 MySQL 将 会 为 每 个 字符 预 留 三 个 字 节 。 
我 们 曾经 在 一 个 库 表 结 构 设 计 不 合理 的 案例 中 看 到 ， 排 序 消耗 的 临时 空间 比 磁盘 上 的 原 
表 要 大 很 多 倍 。 


在 关联 查询 的 时 候 如 果 需 要 排序 ，MySQL 会 分 两 种 情况 来 处 理 这 样 的 文件 排序 。 如 
果 0RDER BY 子 句 中 的 所 有 列 都 来 自 关联 的 第 一 个 表 ， 那 么 MySQL 在 关联 处 理 第 一 
个 表 的 时 候 就 进行 文件 排序 。 如 果 是 这 样 ， 那 么 在 MySQL 的 EXPLAIN 结果 中 可 以 看 到 
Extra 字段 会 有 “Using filesort”。 除 此 之 外 的 所 有 情况 ，MySQL 都 会 先 将 关联 的 结果 
存放 到 一 个 临时 表 中 ， 然 后 在 所 有 的 关联 都 结束 后 ， 再 进行 文件 排序 。 这 种 情况 下 ， 在 
MySQL 的 EXPLAIN 结果 的 Extra 字段 可 以 看 到 “Using temporary; Using filesort”, 40% 
查询 中 有 LIMIT 的 话 ，LIMIT 也 会 在 排序 之 后 应 用 ， 所 以 即使 需要 返回 较 少 的 数据 ， 临 
时 表 和 需要 排序 的 数据 量 仍然 会 非常 大 。 


MySQL 5.6 在 这 里 做 了 很 多 重要 的 改进 。 当 只 需要 返回 部 分 排序 结果 的 时 候 ， 例 如 使 用 
T LIMIT FA, MySQL 不 再 对 所 有 的 结果 进行 排序 ， 而 是 根据 实际 情况 ， 选 择 抛弃 不 
满足 条 件 的 结果 ， 然 后 再 进行 排序 。 


6.4.4 查询 执行 引擎 

在 解析 和 优化 阶段 ，MySQL 将 生成 查询 对 应 的 执行 计划 ，MySQL 的 查询 执行 引擎 则 根 
据 这 个 执行 计划 来 完成 整个 查询 。 这 里 执行 计划 是 一 个 数据 结构 ， 而 不 是 和 很 多 其 他 的 
关系 型 数据 库 那 样 会 生成 对 应 的 字 节 码 。 


相对 于 查询 优化 阶段 ， 查 询 执 行 阶段 不 是 那么 复杂 : MySQL 只 是 简单 地 根据 执行 计划 
给 出 的 指令 逐步 执行 。 在 根据 执行 计划 逐步 执行 的 过 程 中 ， 有 大 量 的 操作 需要 通过 调用 
存储 引擎 实现 的 接口 来 完成 ， 这 些 接口 也 就 是 我 们 称 为 “handler 4PI” 的 接口 。 查 询 中 
的 每 一 个 表 由 一 个 handler 的 实例 表示 。 前 面 我 们 有 意 忽 略 了 这 上 点， 实际 上 ，MySQL 在 
优化 阶段 就 为 每 个 表 创 建 了 一 个 handler 实例 ， 优 化 器 根据 这 些 实例 的 接口 可 以 获取 表 
的 相关 信息 ， 包 括 表 的 所 有 列 名 、 索 引 统计 信息 ， 等 等 。 


存储 引擎 接口 有 着 非常 丰富 的 功能 ， 但 是 底层 接口 却 只 有 几 十 个 ， 这 些 接口 像 “ 搭 积木 
一 样 能 够 完成 查询 的 大 部 分 操作 。 例 如 ， 有 一 个 查询 某 个 索引 的 第 一 行 的 接口 ， 再 有 一 
个 查询 某 个 索引 条 目的 下 一 个 条 目的 功能 ， 有 了 这 两 个 功能 我 们 就 可 以 完成 全 索引 扫描 
的 操作 了 。 这 种 简单 的 接口 模式 ， 让 MySQL 的 存储 引擎 插件 式 架构 成 为 可 能 ， 但 是 正 
如 前 面 的 讨论 ， 也 给 优化 器 带 来 了 一 定 的 限制 。 
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F 
Pes 并 不 是 所 有 的 操作 都 由 handler 完成 。 例 如 ， 当 MySQL 需要 进行 表 锁 的 时 候 。 
aS J. handler 可 能 会 实现 自己 的 级 别 的 、 更 细 粒 度 的 锁 ， 如 InnoDB 就 实现 了 自己 的 行 基 
“OS! 本 锁 ， 但 这 并 不 能 代替 服务 器 层 的 表 锁 。 正 如 我 们 第 1 章 所 介绍 的 ， 如 果 是 所 有 存 
储 引擎 共有 的 特性 则 由 服务 器 层 实现 ， 比 如 时 间 和 日 期 函数 、 视 图 、 触 发 器 等 。 


为 了 执行 查询 ，MySQL 只 需要 重复 执行 计划 中 的 各 个 操作 ， 直 到 完成 所 有 的 数据 查询 。 


6.4.5 返回 结果 给 客户 端 
查询 执行 的 最 后 一 个 阶段 是 将 结果 返回 给 客户 端 。 即 使 查询 不 需要 返回 结果 集 给 客户 端 ， 
MySQL 仍然 会 返回 这 个 查询 的 一 些 信 息 ， 如 该 查询 影响 到 的 行 数 。 


如 果 查 询 可 以 被 缓存 ， 那 么 MySQL 在 这 个 阶段 也 会 将 结果 存放 到 查询 缓存 中 。 


MySQL 将 结果 集 返 回 客户 端 是 一 个 增 量 、 逐 步 返回 的 过 程 。 例 如 ， 我 们 回头 看 看 前 面 
的 关联 操作 ， 一 旦 服务 器 处 理 完 最 后 一 个 关联 表 ， 开 始 生成 第 一 条 结果 时 ，MySQL 就 
可 以 开始 向 客户 端 逐步 返回 结果 集 了 。 


这 样 处 理 有 两 个 好 处 : 服务 器 端 无 须 存储 太 多 的 结果 ， 也 就 不 会 因为 要 返回 太 多 结果 而 
消耗 太 多 内 存 。 另 外 ， 这 样 的 处 理 也 让 MySQL 客户 端 第 一 时 间 获 得 返回 的 结果 “”。 


结果 集中 的 每 一 行 都 会 以 一 个 满足 MySQL 客户 端 / 服 务 器 通信 协议 的 封包 发 送 ， 再 通 
过 TCP 协议 进行 传输 ， 在 TCP 传输 的 过 程 中 ， 可 能 对 MySQL 的 封包 进行 缓存 然后 批 
量 传输 。 


6.5 MySQL 查询 优化 器 的 局 限 性 


MySQL 的 万 能 “ 峰 套 循环 ”并 不 是 对 每 种 查询 都 是 最 优 的 。 不 过 还 好 ，MySQL 查询 优 
化 器 只 对 少 部 分 查询 不 适用 ， 而 且 我 们 往往 可 以 通过 改写 查询 让 MySQL 高 效 地 完成 工 
作 。 还 有 一 个 好 消息 ，MySQL 5.6 版 本 正式 发 布 后 ， 会 消除 很 多 MySQL 原本 的 限制 ， 
让 更 多 的 查询 能 够 以 尽 可 能 高 的 效率 完成 。 


6.5.1 关联 子 查询 


MySQL 的 子 查 询 实 现 得 非常 糟糕 。 最 糟糕 的 一 类 查询 是 WHERE 条 件 中 包含 IN ( ) 的 子 查 
询 语句 。 例 如 ， 我 们 希望 找到 Sakia 数据 库 中 ， 演 员 Penelope Guiness (他 的 actor_ id 
Al) 参 演 过 的 所 有 影片 信息 。 很 自然 的 ， 我 们 会 按照 下 面 的 方式 用 子 查 询 实 现 : 


注 22 : 可 以 通过 一 些 办 法 来 影响 这 个 行为 一 一 例如 ， 我 们 可 以 使 用 SQL BUFFER RESULT。 参 考 后 面 的 “ 查 
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mysql> SELECT * FROM sakila.film 
-> WHERE film_id IN( 
-> SELECT film id FROM sakila.film_actor WHERE actor id = 1); 


因为 MySQL 对 IN() 列表 中 的 选项 有 专门 的 优化 策略 ， 一 般 会 认为 MySQL 会 先 执行 子 
查询 返回 所 有 包含 actor_id 为 1 的 人 ilm_id。 一 般 来 说 ，IN() 列表 查询 速度 很 快 ， 所 以 
我 们 会 认为 上 面 的 查询 会 这 样 执行 
-- SELECT GROUP CONCAT(film id) FROM sakila.film actor WHERE actor id = 1; 
-- Result: 1,23,25,106,140,166,277,361,438,499,506,509,605,635,749,832,939,970,980 
SELECT * FROM sakila. film 
WHERE film id 
IN(1, 23,25, 106,140, 166,277, 361,438,499, 506, 509,605,635, 749,832, 939,970,980) ; 
RPE, MySQL 不 是 这 样 做 的 。MySQL 会 将 相关 的 外 层 表 压 到 子 查询 中 ， 它 认为 这 样 
可 以 更 高 效率 地 查找 到 数据 行 。 也 就 是 说 ，MySQL 会 将 查询 改写 成 下 面 的 样子 : 
SELECT * FROM sakila.film 
WHERE EXISTS ( 
SELECT * FROM sakila.film actor WHERE actor_id = 1 
AND film_actor.film_id = film. film | id); 
这 时 , 子 查询 需要 根据 film id 来 关联 外 部 表 film, 因为 需要 film id +R, ALA MySQL 
认为 无 法 先 执行 这 个 子 查询 。 通 过 EXPLAIN 我 们 可 以 看 到 子 查询 是 一 个 相关 子 查询 
(DEPENDENT SUBQUERY) (可 以 使 用 EXPLAIN EXTENDED 来 查看 这 个 查询 被 改写 成 了 什么 
样子 ) : 


ya EXPLAIN SELECT * FROM sakila.film ...; 


+----+-------------------- +------------ +--------+------------------------ + 
| id | select type | table | type | ossible keys | 
+----+--------------------+------------+--------+------------------------ 十 
| 1 | PRIMARY | film | ALL | NULL | 
| 2 | DEPENDENT SUBQUERY | film actor | eq_ref | PRIMARY, idx fk film id | 
+----+-------------------- +------------+--------+------------------------ 十 


根据 EXPLAIN 的 输出 我 们 可 以 看 到 ，MySQL EI fite 表 进行 全 表 扫 描 ， 然 后 根据 
返回 的 fm_id 逐个 执行 子 查询 。 如 果 是 一 个 很 小 的 表 ， 这 个 查询 糟糕 的 性 能 可 能 还 不 会 
引起 注意 ， 但 是 如 果 外 层 的 表 是 一 个 非常 大 的 表 ， 那 么 这 个 查询 的 性 能 会 非常 糟糕 。 当 
然 我 们 很 容易 用 下 面 的 办 法 来 重 写 这 个 查询 : 
mysql> SELECT film.* FROM sakila.film 

-> INNER JOIN sakila.film_actor USING(film_id) 

-> WHERE actor_id = 1; 
另 一 个 优化 的 办 法 是 使 用 函数 GROUP_ CONCAT() 在 IN() 中 构造 一 个 由 逗号 分 隔 的 列表 。 
有 时 这 比 上 面 的 使 用 关联 改写 更 快 。 因 为 使 用 IN() 加 子 查 询 ， 性 能 经 常会 非常 糟 ， 所 以 
通常 建议 使 用 EXISTS ( ) 等 效 的 改写 查询 来 获取 更 好 的 效率 。 下 面 是 另 一 种 改写 IN() 加 
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子 查询 的 办 法 : 


mysql> SELECT * FROM sakila.film 
-> WHERE EXISTS( 
-> SELECT * FROM sakila.film actor WHERE actor id = 


-> AND film actor.film id = film.film id); 
WT a 
一 这 里 讨论 的 优化 器 的 限制 直到 Oracle 推出 的 MySQL 5.5 都 一 直 存在 。MySQL 的 另 
全 da DOE MariaDB 则 在 原 有 的 优化 器 的 基础 上 做 了 大 量 的 改进 ， 例如 这 里 提 到 的 
s，TN( ) 加 子 查询 改进 。 
如 何 用 好 关联 子 查询 


并 不 是 所 有 关联 子 查询 的 性 能 都 会 很 差 。 如 果 有 人 跟 你 说 :“ 别 用 关联 子 查询 *"， 那 么 不 
要 理 他 。 先 测试 ， 然 后 做 出 自己 的 判断 。 很 多 时 候 ， 关 联 子 查询 是 一 种 非常 合理 、 目 然 ， 
甚至 是 性 能 最 好 的 写法 。 我 们 看 看 下 面 的 例子 : 


mysql> EXPLAIN SELECT film_id, language_ id FROM sakila.film 
-> WHERE NOT EXISTS( 
-> SELECT * FROM sakila.film actor 
-> WHERE film_actor.film_id = film.film id 
-> 
JaipEE OOS 1 gy okk kkk 
id: 1 
select_type: PRIMARY 
table: film 
type: ALL 
possible_keys: NULL 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 951 
Extra: Using where 
aooo ok RRR EERE ER AEE 7 rgy Fkk kkk kkk k kak ak akak akak ak ak ak kkk kk 
id: 2 
select_type: DEPENDENT SUBQUERY 
table: film_actor 
type: ref 
possible_keys: idx fk film id 
key: idx fk film id 
key_len: 2 
ref: film. film_id 
rows: 2 
Extra: Using where; Using index 


一 般 会 建议 使 用 左 外 连接 (LEFT OUTER JOIN) 重 写 该 查询 ， 以 代替 子 查询 。 理 论 上 ， 改 
写 后 MySQL 的 执行 计划 完全 不 会 改变 。 我 们 来 看 这 个 例子 : 
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mysql> EXPLAIN SELECT film.film_id, film.language id 
-> FROM sakila.film 


-> 


LEFT OUTER JOIN sakila.film_actor USING(film id) 


-> WHERE film_actor.film_id IS NULL\G 
6 Ae EEEE EEE Ek KK OK aK KK k kkk 1. TOW BRR RR kokk kk kkk kkk 


id: 
select_type: 
table: 

type: 

possible keys: 
key: 

key_len: 

ref: 

rows: 

Extra: 


1 
SIMPLE 
film 
ALL 
NULL 
NULL 
NULL 
NULL 
951 


ooko kkk kkk 7 。 了 OW Ekok kkk kkk kkk kk 


id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 

Extra: 


1 

SIMPLE 

film actor 

ref 

idx fk film id 

idx fk film id 

2 

sakila.film.film id 

2 

Using where; Using index; Not exists 


[22> 可 以 看 到 ， 这 里 的 执行 计划 基本 上 一 样 ， 下 面 是 一 些微 小 的 区 别 : 


。 K film actor 的 访问 类 型 一 个 是 DEPENDENT SUBQUERY， 而 另 一 个 是 SIMPLE。 这 个 不 
同 是 由 于 语句 的 写法 不 同 导致 的 ， 一 个 是 普通 查询 ， 一 个 是 子 查询 。 这 对 底层 存储 
引擎 接口 来 说 ， 没 有 任何 不 同 。 

e 对 film 表 ,第 二 个 查询 的 Extra 中 没有 “Using where”, 但 这 不 重要 ， 第 二 个 查询 
的 USING 子 句 和 第 一 个 查询 的 WHERE 子 句 实际 上 是 完全 一 样 的 。 

。 在 第 二 个 表 fiLm_actor 的 执行 计划 的 Extra 列 有 “Not exists”。 这 是 我 们 前 面 章 
他 中 提 到 的 提前 终止 算法 (early-termination algorithm), MySQL 通过 使 用 “Not 
exists” 优化 来 避免 在 表 film actor 的 索引 中 读 取 任何 额外 的 行 。 这 完全 等 效 于 直接 
编写 NOT EXISTS 子 查询 ， 这 个 执行 计划 中 也 是 一 样 ， 一 旦 匹配 到 一 行 数据 ， 就 立刻 
停止 扫 拉 。 


所 以 ， 从 理论 上 讲 ，MySQL 将 使 用 完全 相同 的 执行 计划 来 完成 这 个 查询 。 现 实 世界 中 ， 
我 们 建议 通过 一 些 测试 来 判断 使 用 哪 种 写法 速度 会 更 快 。 针 对 上 面 的 案例 ， 我 们 对 两 种 
写法 进行 了 测试 ， 表 6-1 中 列 出 了 测试 结果 。 


表 6-1: NOT EXISTS 和 左 外 连接 的 性 能 比较 


查询 ”每 秒 查询 数 结果 (QPS) 
NOT EXISTS 子 查 询 360 QPS 
EE ER at 
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我 们 的 测试 显示 ， 使 用 子 查询 的 写法 要 略微 慢 些 ! 


不 过 每 个 具体 的 案例 会 各 有 不 同 ， 有 时 候 子 查询 写法 也 会 快 些 。 例 如 ， 当 返回 结果 中 只 
有 一 个 表 中 的 某 些 列 的 时 候 。 听 起 来 ， 这 种 情况 对 于 关联 查询 效率 也 会 很 好 。 具 体 情况 
具体 分 析 ， 例 如 下 面 的 关联 ， 我 们 希望 返回 所 有 包含 同一 个 演员 参 演 的 电影 ， 因 为 一 个 
电影 会 有 很 多 演员 参 演 ， 所 以 可 能 会 返回 一 些 重 复 的 记录 : 


mysql> SELECT film.film_id FROM sakila. film 
-> INNER JOIN sakila.film_actor USING(film_id); 


我 们 需要 使 用 DISTINCT 和 GROUP BY 来 移 除 重 复 的 记录 : 


mysql> SELECT DISTINCT film.film id FROM sakila.film 
-> INNER JOIN sakila.film actor USING(film id); 

但 是 ， 回 头 看 看 这 个 查询 ， 到 底 这 个 查询 返回 的 结果 集 意义 是 什么 ? 至 少 这 样 的 写法 会 
LE SQL 的 意义 很 不 明显 。 如 果 使 用 EXISTS 则 很 容易 表达 “包含 同一 个 参 演 演员 ”的 逻辑 ， 
而 且 不 需要 使 用 DISTINCT 和 GROUP BY， 也 不 会 产生 重复 的 结果 集 ， 我 们 知道 一 旦 使 用 
了 DISTINCT 和 GROUP BY， 那 么 在 查询 的 执行 过 程 中 ， 通 常 需要 产生 临时 中 间 表 。 下 面 
我 们 用 子 查询 的 写法 替换 上 面 的 关联 : 

mysql> SELECT film id FROM sakila. film 


-> WHERE EXISTS(SELECT * FROM sakila.film_actor 
-> ”WHERE film.film id = film_actor.film_id); 


再 一 次 ， 我 们 需要 通过 测试 来 对 比 这 两 种 写法 ， 哪 个 更 快 一 些 。 测 试 结果 参考 表 6-2。 


家 6-2: EXISTS 和 关联 性 能 对 比 


查询 ”每 秒 查 询 数 结果 (QPS) 
INNER JOIN 185 QPS 
EXISTS 子 查 询 325 QPS 


A RD AA LT 


在 这 个 案例 中 ， 我 们 看 到 子 查 询 速度 要 比 关 联 查 询 更 快 些 。 


通过 上 面 这 个 详细 的 案例 ， 主 要 想 说 明 两 点 : 一 是 不 需要 听取 那些 关于 子 查询 的 “绝对 
真理 ”， 二 是 应 该 用 测试 来 验证 对 子 查询 的 执行 计划 和 响应 时 间 的 假设 。 最 后 ， 关 于 子 
查询 我 们 需要 提 到 的 是 一 个 MySQL 的 bug。 在 MYSQL 5.1.48 和 之 前 的 版 本 中 ， 下 面 的 
写法 会 锁 住 table2 中 的 一 条 记录 : 


SELECT ... FROM table1 WHERE col = (SELECT ... FROM table2 WHERE ...); 


如 果 遇 到 该 bug, 子 查询 在 高 并 发 情况 下 的 性 能 ,就 会 和 在 单线 程 测试 时 的 性 能 相差 其 远 。 
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这 个 bug 的 编号 是 46947， 虽 然 这 个 问题 已 经 被 修复 了 ， 但 是 我 们 仍然 要 提醒 读者 : 不 
要 主观 猜测 ， 应 该 通过 测试 来 验证 猜想 。 


6.5.2 UNION 的 限制 


A, MySQL 无 法 将 限制 条 件 从 外 层 “ 下 推 到 内 层 ， 这 使 得 原本 能 够 限制 部 分 返回 
结果 的 条 件 无 法 应 用 到 内 层 查 询 的 优化 上 。 


如 果 和 希望 UNION 的 各 个 子 句 能 够 根据 LIMIT 只 取 部 分 结果 集 ， 或 者 希望 能 够 先 排 好 序 再 
合并 结果 集 的 话 ， 就 需要 在 UNION 的 各 个 子 句 中 分 别 使 用 这 些 子 句 。 例 如 ， 想 将 两 个 子 
查询 结果 联合 起 来 ， 然 后 再 取 前 20 条 记录 ， 那 么 MySQL 会 将 两 个 表 都 存放 到 同一 个 临 
时 表 中 ， 然 后 再 取出 前 20 行 记录 : 


(SELECT first_name, last_name 
FROM sakila.actor 

ORDER BY last_name) 
UNION ALL 

(SELECT first name, last_name 
FROM sakila.customer 

ORDER BY last_name) 

LIMIT 20; 


这 条 查询 将 会 把 actor HAY 200 条 记录 和 customer 表 中 的 599 条 记录 存放 在 一 个 临时 
表 中 ， 然 后 再 从 临时 表 中 取出 前 20 条 。 可 以 通过 在 UNION 的 两 个 子 查询 中 分 别 加 上 一 个 
LIMIT 20 来 减少 临时 表 中 的 数据 : 


(SELECT first_name, last_name 
FROM sakila.actor 

ORDER BY last_name 

LIMIT 20) 
UNION ALL 

(SELECT first_name, last_name 
FROM sakila.customer 

ORDER BY last_name 

LIMIT 20) 

LIMIT 20; 


现在 中 间 的 临时 表 只 会 包含 40 条 记录 了 ， 除 了 性 能 考虑 之 外 ， 在 这 里 还 需要 注意 一 反 : 
从 临时 表 中 取出 数据 的 顺序 并 不 是 一 定 的 ， 所 以 如 果 想 获得 正确 的 顺序 ， 还 需要 加 上 一 


”个 全 局 的 ORDER BY 和 LIMIT 操作 。 


6.5.3 索引 合并 优化 


在 前 面 的 章节 已 经 讨论 过 ， 在 5.0 和 更 新 的 版 本 中 ， 当 WHERE 子 句 中 包含 多 个 复杂 条 件 的 
时 候 ，MySQL 能 够 访问 单个 表 的 多 个 索引 以 合并 和 交叉 过滤 的 方式 来 定位 需要 查找 的 行 。 


228 | 第 6 章 查询 性 能 优化 


6.5.4 等 值 传递 

某 些 时候 , 等 值 传递 会 带 来 一 些 意 想不到 的 额外 消耗 。 例 如 , 有 一 个 非常 大 的 IN() 列表 ， 
而 MySQL 优化 器 发 现存 在 WHERE, ON 或 者 USING 的 子 句 ， 将 这 个 列表 的 值 和 另 一 个 表 
的 某 个 列 相关 联 。 

那么 优化 器 会 将 IN() 列表 都 复制 应 用 到 关联 的 各 个 表 中 。 通 常 ， 因 为 各 个 表 新 增 了 过 渡 
条 件 ， 优 化 器 可 以 更 高 效 地 从 存储 引擎 过 滤 记 录 。 但 是 如 果 这 个 列表 非常 大 ， 则 会 导致 
优化 和 执行 都 会 变 慢 。 在 本 书写 作 的 时 候 ， 除 了 修改 MySQL 源 代码 ， 目 前 还 没有 什么 
办 法 能 够 绕 过 该 问题 (不 过 这 个 问题 很 少 会 磁 到 )。 


6.5.5 并 行 执行 

MySQL 无 法 利用 多 核 特性 来 并 行 执行 查询 。 很 多 其 他 的 关系 型 数据 库 能 够 提供 这 个 特 
性 ， 但 是 MySQL 做 不 到 。 这 里 特别 指出 是 想 告诉 读者 不 要 花 时 间 去 尝试 寻找 并 行 执行 
查询 的 方法 。 


6.5.6 哈 希 天 联 

在 本 书写 作 的 时 候 ，MySQL 并 不 支持 哈 希 关联 一 一 MySQL 的 所 有 关联 都 是 嵌 套 循环 关 
联 。 不 过 ， 可 以 通过 建立 一 个 哈 希 索引 来 曲线 地 实现 哈 希 关联 。 如 果 使 用 的 是 Memory 
存储 引擎 ， 则 索引 都 是 哈 希 索引 ， 所 以 关联 的 时 候 也 类 似 于 哈 希 关联 。 可 以 参考 第 5 章 
的 “创建 自 定 义 哈 希 索引 ”部 分 。 另 外 ，MariaDB 已 经 实现 了 真正 的 哈 希 关联 。 


6.5.7 松散 索引 扫描 皇 2 


由 于 历史 原因 ，MySQL 并 不 支持 松散 索引 扫描 ， 也 就 无 法 按照 不 连续 的 方式 扫描 一 个 
索引 。 通 常 ，MySQL 的 索引 扫 摘 需要 先 定 义 一 个 起 点 和 终点 ， 即 使 需要 的 数据 只 是 这 
段 索 引 中 很 少数 的 几 个 ，MySQL 仍 需 要 扫描 这 段 索 引 中 每 一 个 条 目 。 


下 面 我 们 通过 一 个 示例 说 明 这 后 。 假 设 我 们 有 如 下 索引 (a，b)， 有 下 面 的 查询 : 
mysql> SELECT ... FROM tbl WHERE b BETWEEN 2 AND 3; 


因为 索引 的 前 导 字 段 是 列 a, 但 是 在 查询 中 只 指定 了 字段 bp，MySQL 无 法 使 用 这 个 索引 ， 
从 而 只 能 通过 全 表 扫 描 找 到 匹配 的 行 ， 如 图 6-5 所 示 。 


注 23 : 相当 于 Oracle 中 的 跳跃 索引 扫描 (skip index scan) 。 一 一 译 者 注 
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图 6-5: MySQL 通 过 全 表 扫 描 找 到 需要 的 记录 


了 解 索 引 的 物理 结构 的 话 ， 不 难 发 现 还 可 以 有 一 个 更 快 的 办 法 执行 上 面 的 查询 。 索 引 的 
物理 结构 (AE FETE S| BERD API) 使 得 可 以 先 扫 描 a 列 第 一 个 值 对 应 的 b 列 的 范围 ， 然 
后 再 跳 到 a 列 第 二 个 不 同 值 扫描 对 应 的 b 列 的 范围 。 图 6-6 展示 了 如 果 由 MySQL 来 实 
现 这 个 过 程 会 怎样 。 


pp ae y 





图 6-6: 使 用 松散 索引 扫描 效率 会 更 高 ， 但 是 MySQL 现 在 还 不 支持 这 人 么 做 
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注意 到 ， 这 时 就 无 须 再 使 用 WHERE Fe, AAMC Ab TARE 
的 记录 。 


上 面 是 一 个 简单 的 例子 ， 除 了 松散 索引 扫描 ， 新 增 一 个 合适 的 索引 当然 也 可 以 优化 上 述 
查询 。 但 对 于 某 些 场景 ， 增 加 索引 是 没 用 的 ， 例 如 ， 对 于 第 一 个 索引 列 是 范围 条 件 ， 第 
二 个 索引 列 是 等 值 条 件 的 查询 ， 靠 增加 索引 就 无 法 解决 问题 。 


MySQL 5.0 之 后 的 版 本 ， 在 某 些 特殊 的 场景 下 是 可 以 使 用 松散 索引 扫描 的 ， 例 如 ， 在 一 
个 分 组 查询 中 需要 找到 分 组 的 最 大 值 和 最 小 值 : 
mysql> EXPLAIN SELECT actor_id, MAX(film_id) 


-> FROM sakila.film_actor 


-> GROUP BY actor _id\G 
JAEGGI GEORGE AREK “了 yoy oook kk 


id: 1 
select type: SIMPLE 
table: film actor 
type: range . 
possible_keys: NULL 
key: PRIMARY 


2 
ref: NULL 


rows: 396 
Extra: Using index for group-by 


在 EXPLAIN 中 的 Extra 字段 显示 “Using index for group-by”， 表 示 这 里 将 使 用 松散 索引 
扫描 ， 不 过 如 果 MySQL 能 写 上 “loose index probe”， 相 信 会 更 好 理解 。 


在 MySQL 很 好 地 支持 松散 索引 扫描 之 前 ， 一 个 简单 的 绕 过 问题 的 办 法 就 是 给 前 面 的 列 
加 上 可 能 的 常数 值 。 在 前 面 索 引 案 例 学 习 的 章节 中 ， 我 们 已 经 看 到 这 样 做 的 好 处 了 ， 


TE MySQL 5.6 之 后 的 版 本 ,关于 松散 索引 扫 摘 的 一 些 限制 将 会 通过 “索引 条 件 下 推 (index 
condition pushdown) ”的 方式 解决 。 


6.5.8 最 大 值 和 最 小 值 优化 
对 于 MIN() 和 MAX() 查询 ，MySQL 的 优化 做 得 并 不 好 。 这 里 有 一 个 例子 : 

mysql> SELECT MIN(actor_id) FROM sakila.actor WHERE first_name = “PENELOPE ' ; 
因为 在 first_name 字 段 上 并 没有 索引 ， 因 此 MySQL 将 会 进行 一 次 全 表 扫 描 。 如 果 
MySQL 能 够 进行 主键 扫描 , 那么 理论 上 , 4 MySQL 读 到 第 一 个 满足 条 件 的 记录 的 时 候 ， 
就 是 我 们 需要 找 的 最 小 值 了 ， 因 为 主键 是 严格 按照 actor_id 字段 的 大 小 顺序 排列 的 。 但 
是 MySQL 这 时 只 会 做 全 表 扫 描 ， 我 们 可 以 通过 查看 SHOW STATUS 的 全 表 扫 描 计 数 器 来 
验证 这 一 点 。 一 个 曲线 的 优化 办 法 是 移 除 MIN()， 然 后 使 用 LIMIT 来 将 查询 重 写 如 下 : 
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mysql> SELECT actor_id FROM sakila.actor USE INDEX(PRIMARY) 
-> WHERE first name = ‘PENELOPE’ LIMIT 1; 


这 个 策略 可 以 让 MySQL 扫描 尽 可 能 少 的 记录 数 。 如 果 你 是 一 个 完美 主义 者 ， 可 能 会 说 
这 个 SQL 已 经 无 法 表达 她 的 本 意 了 。 一 般 我 们 通过 SQL 告诉 服务 器 我 们 需要 什么 数据 ， 
由 服务 器 来 决定 如 何 最 优 地 获取 数据 ， 不 过 在 这 个 案例 中 ， 我 们 其 实 是 告诉 MySQL 如 
何 去 获 取 我 们 需要 的 数据 ， 通 过 SQL 并 不 能 一 眼 就 看 出 我 们 其 实 是 想 要 一 个 最 小 值 。 确 
实 如 此 ， 有 时 候 为 了 获得 更 高 的 性 能 ， 我 们 不 得 不 放弃 一 些 原则 。 


6.5.9 在 同一 个 表 上 查询 和 更 新 
MySQL 不 允许 对 同一 张 表 同 时 进行 查询 和 更 新 。 这 其 实 并 不 是 优化 器 的 限制 ， 如 果 清 
楚 MySQL 是 如 何 执行 查询 的 ， 就 可 以 避免 这 种 情况 。 下 面 是 一 个 无 法 运行 的 SQL， 虽 
然 这 是 一 个 符合 标准 的 SQL 语句 。 这 个 SQL 语句 尝试 将 两 个 表 中 相似 行 的 数量 记录 到 
字段 cnt H: 
mysql> UPDATE tbl AS outer_tbl 
-> SET cnt = ( 


-> SELECT count(*) FROM tbl AS inner_tbl 
-> WHERE inner tbl.type = outer _tbl.type 
-> 


); 
ERROR 1093 (HY000): You can’t specify target table 'outer_tbl' for update in FROM 
clause 
可 以 通过 使 用 生成 表 的 形式 来 绕 过 上 面 的 限制 ， 因 为 MySQL 只 会 把 这 个 表 当 作 一 个 临 
时 表 来 处 理 。 实 际 上 ， 这 执行 了 两 个 查询 : 一 个 是 子 查询 中 的 SELECT 语句 ， 另 一 个 是 多 
RREK UPDATE, 只 是 关联 的 表 是 一 个 临时 表 。 子 查询 会 在 UPDATE 语 句 打开 表 之 前 就 完成 ， 
所 以 下 面 的 查询 将 会 正常 执行 : 
mysql> UPDATE tbl 
-> INNER JOIN( 
> SELECT type, count(*) AS cnt 
> FROM tbl 
-> GROUP BY type 
> 


) AS der USING(type) 
-> SET tbl.cnt = der.cnt; 


6.6 查询 优化 器 的 提示 (hint) 


如 果 对 优化 器 选择 的 执行 计划 不 满意 ， 可 以 使 用 优化 器 提供 的 几 个 提示 (hint) 来 控制 
最 终 的 执行 计划 。 下 面 将 列举 一 些 常见 的 提示 ， 并 简单 地 给 出 什么 时 候 使 用 该 提示 。 通 
过 在 查询 中 加 入 相应 的 提示 ,就 可 以 控制 该 查询 的 执行 计划 。 关 于 每 个 提示 的 具体 用 法 ， 
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建议 直接 阅读 MySQL 官方 手册 。 有 些 提示 和 版 本 有 直接 关系 。 可 以 使 用 的 一 些 提示 如 
F: 


HIGH PRIORITY 和 LOW PRIORITY 
这 个 提示 告诉 MySQL， 当 多 个 语句 同时 访问 某 一 个 表 的 时 候 ， 哪 些 语句 的 优先 级 相 
对 高 些 、 哪 些 语 句 的 优先 级 相对 低 些 。 

HIGH PRIORITY 用 于 SELECT 语句 的 时 候 ，MySQL 会 将 此 SELECT 语句 重新 调度 到 所 
有 正在 等 待 表 锁 以 便 修改 数据 的 语 名 之前。 实际 上 MySQL 是 将 其 放 在 表 的 队列 的 
最 前 面 ， 而 不 是 按照 常规 顺序 等 待 。HIGH PRIORITY 还 可 以 用 于 INSERT 语句 ， 其 效 
果 只 是 简单 地 抵消 了 全 局 LOW PRIORITY 设置 对 该 语句 的 影响 。 
LOW PRIORITY 则 正好 相反 : ES 让 该 语句 一 直 处 于 等 待 状态 ， 只 要 队列 中 还 有 需要 
访问 同一 个 表 的 语 扫 去 语句 还 晚 提 交 到 服务 器 的 语句 。 这 就 像 一 
个 过 于 礼 驱 的 人 站 在 餐厅 门口 ， 只 要 还 有 其 他 吴 客 在 等 竺 就 一 直 不 进去 ， 很 明显 这 
容易 把 自己 给 饿 坏 。LOW_PRIORITY 提示 在 SELECT, INSERT, UPDATE 和 DELETE 语句 
中 都 可 以 使 用 。 
这 两 个 提示 只 对 使 用 表 锁 的 存储 引擎 有 效 ， 千 万 不 要 在 InnoDB 或 者 其 他 有 细 粒 度 
锁 机 制 和 并 发 控制 的 引擎 中 使 用 。 即 使 是 在 MyISAM 中 使 用 也 要 注意 ， 因 为 这 两 个 
提示 会 导致 并 发 插入 被 禁用 ， 可 能 会 严重 降低 性 能 
HIGH PRIORITY 和 LOW_PRIORITY 经 常 让 人 感到 困惑 。 这 两 个 提示 并 不 会 获取 更 多 资 
源 让 查询 “积极 ”工作 ， 也 不 会 少 获 取 资 源 让 查询 “消极 ”工作 。 它 们 只 是 简单 地 
控制 了 MySQL 访问 某 个 数据 表 的 队列 顺序 。 

DELAYED 239 
这 个 提示 对 INSERT 和 REPLACE 43. MySQL 会 将 使 用 该 提示 的 语句 立即 返回 给 客 
户 端 ， 并 将 揪 入 的 行 数 据 放 入 到 缓冲 区 ， 然 后 在 表 空 闲 时 批量 将 数据 写 入 。 日 志 系 
统 使 用 这 样 的 提示 非常 有 效 ， 或 者 是 其 他 需要 写 入 大 量 数据 但 是 客户 端 却 不 需要 等 
待 单条 语句 完成 1/O 的 应 用 。 这 个 用 法 有 一 些 限制 : 并 不 是 所 有 的 存储 引擎 都 支持 
这 样 的 做 法 ;并且 该 提示 会 导致 函数 LAST_INSERT ID() 无 法 正常 工作 。 

STRAIGHT JOIN 

这 个 提示 可 以 放置 在 SELECT 语句 的 SELECT 关键 字 之 后 ， 也 可 以 放置 在 任何 两 个 关 
联 表 的 名 字 之 间 。 第 一 个 用 法 是 让 查询 中 所 有 的 表 按 照 在 语句 中 出 现 的 顺序 进行 关 
联 。 第 二 个 用 法 则 是 固定 其 前 后 两 个 表 的 关联 顺序 。 
当 MySQL 没 能 选择 正确 的 关联 顺序 的 上 时候， 或 者 由 于 可 能 的 顺序 太 多 导致 MySQL 
无 法 评估 所 有 的 关联 顺序 的 时 候 ，STRAIGHT_JOIN 都 会 很 有 用 。 在 后 面 这 种 情况 ， 
MySQL 可 能 会 花费 大 量 时 间 在 “statistics” 状态 ， 加 上 这 个 提示 则 会 大 大 减少 优化 
器 的 搜索 空间 。 
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可 以 先 使 用 EXPLAIN 语句 来 查看 优化 器 选择 的 关联 顺序 ， 然 后 使 用 该 提示 来 重 写 
查询 ， 再 看 看 它 的 关联 顺序 。 当 你 确定 无 论 怎样 的 where 条 件 ， 某 个 固定 的 关联 
顺序 始终 是 最 佳 的 时 候 ， 使 用 这 个 提示 可 以 大 大 提高 优化 器 的 效率 。 但 是 在 升级 
MySQL 版 本 的 时 候 ， 需 要 重新 审视 下 这 类 查询 ， 某 些 新 的 优化 特性 可 能 会 因为 该 提 
示 而 失效 。 

SQL SMALL RESULT 和 SQL BIG RESULT 
这 两 个 提示 只 对 SELECT 语句 有 效 。 它 们 告诉 优化 器 对 GROUP BY 或 者 DISTINCT 查询 
如 何 使 用 临时 表 及 排序 。SQL SMALL RESULT 告诉 优化 器 结果 和 集会 很 小 ， 可 以 将 结果 
集 放 在 内 存 中 的 索引 临时 表 ， 以 避免 排序 操作 。 如 果 是 SQL_BIG_RESULT， 则 告诉 优 
化 器 结果 集 可 能 会 非常 大 ， 建 议 使 用 磁盘 临时 表 做 排序 操作 。 

SQL BUFFER RESULT 
这 个 提示 告诉 优化 器 将 查询 结果 放 入 到 一 个 临时 表 ， 然 后 尽 可 能 快 地 释放 表 锁 。 这 
和 前 面 提 到 的 由 客户 端 缓 存 结果 不 同 。 当 你 没 法 使 用 客户 端 缓存 的 时 候 ， 使 用 服务 
器 端的 缓存 通常 很 有 效 。 带 来 的 好 处 是 无 须 在 客户 端 上 消耗 太 多 的 内 存 ， 还 可 以 尽 
可 能 快 地 释放 对 应 的 表 锁 。 代 价 是 ， 服 务 器 端 将 需要 更 多 的 内 存 。 

SQL CACHE 和 SQL NO CACHE 
这 个 提示 告诉 MySQL 这 个 结果 集 是 否 应 该 缓存 在 查询 缓存 中 ， 下 一 章 我 们 将 详细 
介绍 如 何 使 用 。 

SQL CALC FOUND ROWS 
严格 来 说 ， 这 并 不 是 一 个 优化 器 提示 。 它 不 会 告诉 优化 器 任何 关于 执行 计划 的 东西 。 
它 会 让 MySQL 返回 的 结果 集 包 含 更 多 的 信息 。 查 询 中 加 上 该 提示 MySQL 会 计算 
除去 LIMIT 子 句 后 这 个 查询 要 返回 的 结果 集 的 总 数 ， 而 实际 上 只 返回 LIMIT 要 求 的 
结果 集 。 可 以 通过 函数 FOUND_ROW() 获得 这 个 值 。 (参阅 后 面 的 “SQL_CALC_FOUND_ 
ROWS 优化 ”部 分 ， 了 解 下 为 什么 不 应 该 使 用 该 提示 。) 

FOR UPDATE 和 LOCK IN SHARE MODE 
这 也 不 是 真正 的 优化 器 提示 。 这 两 个 提示 主要 控制 SELECT 语句 的 锁 机 制 ， 但 只 对 
实现 了 行 级 锁 的 存储 引擎 有 效 。 使 用 该 提示 会 对 符合 查询 条 件 的 数据 行 加 锁 。 对 于 
INSERT. . .SELECT 语句 是 不 需要 这 两 个 提示 的 ， 因 为 对 于 MySQL 5.0 和 更 新 版 本 会 
默认 给 这 些 记录 加 上 读 锁 。( 可 以 禁用 该 默认 行为 ， 但 不 是 个 好 主意 ， 在 后 面 关于 复 
制 和 备份 的 章节 中 将 解释 这 一 点 。) 
唯一 内 置 的 支持 这 两 个 提示 的 引擎 就 是 InnoDB。 另 外 需要 记 住 的 是 ， 这 两 个 提示 会 
让 某 些 优化 无 法 正常 使 用 ， 例 如 索引 和 覆盖 扫描 。InnoDB 不 能 在 不 访问 主键 的 情况 下 
排他 地 锁定 行 ， 因 为 行 的 版 本 信息 保存 在 主键 中 。 
糟糕 的 是 ， 这 两 个 提示 经 常 被 滥用 ， 很 容易 造成 服务 器 的 锁 争 用 问题 ， 后 面 章 市 我 


N 
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们 将 讨论 这 点 。 应 该 尽 可 能 地 避免 使 用 这 两 个 提示 ， 通 常 都 有 其 他 更 好 的 方式 可 以 
实现 同样 的 目的 。 
USE INDEX, IGNORE INDEX 和 FORCE INDEX 


这 几 个 提示 会 告诉 优化 器 使 用 或 者 不 使 用 哪些 索引 来 查询 记录 (PAN, FERRER 


顺序 的 时 候 使 用 哪个 索引 )。 在 MySQL 5.0 和 更 早 的 版 本 ， 这 些 提示 并 不 会 影响 到 
优化 器 选择 哪个 索引 进行 排序 和 分 组 ， 在 MyQL 5.1 和 之 后 的 版 本 可 以 通过 新 增 选 
项 FOR ORDER BY 和 FOR GROUP BY 来 指定 是 否 对 排序 和 分 组 有 效 。 

FORCE INDEX 和 USE INDEX 基本 相同 ， 除 了 一 点 : FORCE INDEX 会 告诉 优化 器 全 表 扫 
描 的 成 本 会 远 远 高 于 索引 扫描 ， 哪 怕 实 际 上 该 索引 用 处 不 大 。 当 发 现 优化 器 选择 了 
错误 的 索引 ， 或 者 因为 某 些 原因 (比如 在 不 使 用 ORDER BY 的 时 候 希 望 结 果 有 序 ) 要 
使 用 另 一 个 索引 时 ， 可 以 使 用 该 提示 。 在 前 面 关 于 如 何 使 用 LIMIT 高 效 地 获取 最 小 
值 的 案例 中 ， 已 经 演示 过 这 种 用 法 。 


在 MySQL 5.0 和 更 新 版 本 中 ， 新 增 了 一 些 参数 用 来 控制 优化 器 的 行为 : 


optimizer search depth 
这 个 参数 控制 优化 器 在 穷 举 执行 计划 时 的 限度 。 如 果 查 询 长 时 间 处 于 。 ‘Statistics” 
状态 ， 那 么 可 以 考虑 调 低 此 参数 。 

optimizer prune level 
该 参数 默认 是 打开 的 ， 这 让 优化 器 会 根据 需要 扫描 的 行 数 来 决定 是 否 跳 过 某 些 执行 
计划 。 

optimizer Switch 
这 个 变量 包含 了 一 些 开启 /关闭 优化 器 特性 的 标志 位 。 例 如 在 MySQL 5.1 中 可 以 通 
过 这 个 参数 来 控制 禁用 索引 合并 的 特性 。 


前 两 个 参数 是 用 来 控制 优化 器 可 以 走 的 一 些 “ 捷 径 。 这 些 捷径 可 以 让 优化 器 在 处 理 非 
常 复杂 的 SQL 语句 时 ,仍然 可 以 很 高 效 ， 但 这 也 可 能 让 优化 器 错过 一 些 真 正 最 优 的 执行 
计划 。 所 以 应 该 根据 实际 需要 来 修改 这 些 参数 。 


MySQL 升级 后 的 验证 


在 优化 器 面前 要 一 些 “ 小 聪明 ”是 不 好 的 。 这 样 做 收效 其 小 ， 但 是 却 给 维护 带 来 了 


很 多 额外 的 工作 量 。 在 MySQL 版 本 升级 的 时 候 ， 这 个 问题 就 很 突出 了 ， 你 设置 的 
优化 器 提示 ”很 可 能 会 让 新 版 的 优化 策略 失效 。 
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MySQL 5.0 版 本 引入 了 大 量 优化 策略 ， 在 还 没有 正式 发 布 的 5.6 版 本 中 ， 优 化 器 的 
改进 也 是 近 些 年 来 最 大 的 一 次 改进 。 如 果 要 更 新 到 这 些 版 本 ， 当 然 希 望 能 够 从 这 些 
改进 中 受益 。 


新 版 MySQL 基本 上 在 各 个 方面 都 有 非常 大 的 改进 ，5.5 和 5.6 这 两 个 版 本 尤为 突 


出 。 升 级 操作 一 般 来 说 者 很 顺利 ， 但 仍然 建议 仔细 检查 各 个 细节 ， 以 防止 一 些 边界 
情况 影响 你 的 应 用 程序 。 不 过 还 好 ， 要 避免 这 些 ， 你 不 需要 付出 太 多 的 精力 。 使 用 
Percona Toolkit 中 的 pt-upgrade 工具 ， 就 可 以 检查 在 新 版 本 中 运行 的 SQL 是 否 与 
老 版 本 一 样 ， 返 回 相同 的 结果 。 





6.7 优化 特定 类 型 的 查询 


这 一 市 ， 我 们 将 介绍 如 何 优 化 特定 类 型 的 查询 。 在 本 书 的 其 他 部 分 都 会 分 散 介 绍 这 些 优 
化 技巧 ， 不 过 这 里 将 会 汇总 一 下 ， 以 便 参 考 和 查阅 。 


本 节 介 绍 的 多 数 优化 技巧 都 是 和 特定 的 版 本 有 关 的 ， 所 以 对 于 未 来 MySQL 的 版 本 未 必 
适用 。 毫 无 疑问 ， 某 一 天 优化 器 自己 也 会 实现 这 里 列 出 的 部 分 或 者 全 部 优化 技巧 。 


6.7.1 优化 COUNT() 查询 

COUNT ( ) 诊 合 函数 ， 以 及 如 何 优 化 使 用 了 该 函数 的 查询 ， 很 可 能 是 MySQL 中 最 容易 被 
误解 的 前 10 个 话题 之 一 。 在 网 上 随便 搜索 一 下 就 能 看 到 很 多 错误 的 理解 ， 可 能 比 我 们 
想象 的 多 得 多 。 


在 做 优化 之 前 ， 先 来 看 看 COUNT) 函数 真正 的 作用 是 什么 。 


COUNT() 的 作用 

COUNT ( ) 是 一 个 特殊 的 函数 ， 有 两 种 非常 不 同 的 作用 : 它 可 以 统计 某 个 列 值 的 数量 ， 也 
可 以 统计 行 数 。 在 统计 列 值 时 要 求 列 值 是 非 空 的 (不 统计 NULL) 。 如 果 在 COUNT ( ) 的 括 
号 中 指定 了 列 或 者 列 的 表达 式 ， 则 统计 的 就 是 这 个 表达 式 有 值 的 结果 数 和 ”*。 因 为 很 多 人 
对 NULL 理解 有 问题 ， 所 以 这 里 很 容易 产生 误解 。 如 果 想 了 解 更 多 关于 SQL 语句 中 NULL 
的 含义 ， 建 议 阅读 一 些 关 于 SQL 语句 基础 的 书籍 。( 关 于 这 个 话题 ， 互 联网 上 的 一 些 信 
息 是 不 够 精确 的 。) 


COUNT ( ) 的 另 一 个 作用 是 统计 结果 集 的 行 数 。 当 MySQL 确认 括号 内 的 表达 式 值 不 可 外 


注 24 : 而 不 是 NULL。 一 一 译 者 注 
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为 空 时 ， 实 际 上 就 是 在 统计 行 数 。 最 简单 的 就 是 当 我 们 使 用 COUNT (*) 的 时 候 ， 这 种 情况 
下 通配符 * 并 不 会 像 我 们 猜想 的 那样 扩展 成 所 有 的 列 ， 实 际 上 ， 它 会 忽略 所 有 的 列 而 直 
接 统计 所 有 的 行 数 。 


我 们 发 现 一 个 最 常见 的 错误 就 是 ， 在 括号 内 指定 了 一 个 列 却 希望 统计 结果 和 集 的 行 数 。 如 
果 希 望 知 道 的 是 结果 集 的 行 数 ， 最 好 使 用 COUNT(*)， 这 样 写意 义 清晰 ， 性 能 也 会 很 好 。 


关于 MyISAM 的 神话 

一 个 容易 产生 的 误解 就 是 :MyISAM 的 COUNT() 函数 总 是 非常 快 ,不 过 这 是 有 前 提 条 件 的 ， 
即 只 有 没有 任何 WHERE 条 件 的 COUNT(*) 才 非 常 快 ,因为 此 时 无 须 实际 地 去 计算 表 的 行 数 。 
MySQL 可 以 利用 存储 引擎 的 特性 直接 获得 这 个 值 。 如 果 MySQL 知道 某 列 col 不 可 能 为 
NULL 值 ， 那 么 MySQL 内 部 会 将 COUNT (col) 表达 式 优化 为 COUNT(*). 


当 统 计 带 WHERE 子 句 的 结果 集 行 数 ， 可 以 是 统计 某 个 列 值 的 数量 时 ，MyISAM 的 
COUNT () 和 其 他 存储 引擎 没有 任何 不 同 ， 就 不 再 有 神话 般 的 速度 了 。 所 以 在 MyISAM 5| 
获 表 上 执行 COUNT ( ) 有 了 时候 比 别 的 引擎 快 ， 有 了 时候 比 别 的 引擎 慢 ， 这 受 很 多 因素 影响 ， 
要 视 具 体 情况 而 定 。 


简单 的 优化 

有 时候 可 以 使 用 MyISAM 在 COUNT(*) 全 表 非 常 快 的 这 个 特性 ， 来 加 速 一 些 特定 条 件 的 
COUNT() 的 查询 。 在 下 面 的 例子 中 ， 我 们 使 用 标准 数据 库 world 来 看 看 如 何 快速 查找 到 
所 有 ID 大 于 5 的 城市 。 可 以 像 下 面 这 样 来 写 这 个 查询 : 


mysql> SELECT COUNT(*) FROM world.City WHERE ID > 5; 


通过 SHOW STATUS 的 结果 可 以 看 到 该 查询 需要 扫描 4 097 行 数 据 。 如 果 将 条 件 反 转 一 下 ， 
先 查 找 ID 小 于 等 于 5 的 城市 数 ， 然 后 用 总 城市 数 一 减 就 能 得 到 同样 的 结果 ， 却 可 以 将 扫 
描 的 行 数 减少 到 $ TAA : 


mysql> SELECT (SELECT COUNT(*) FROM world.City) - COUNT(*) 
-> FROM world.City WHERE ID <= 5; 


这 样 做 可 以 大 大 减少 需要 扫描 的 行 数 ， 是 因为 在 查询 优化 阶段 会 将 其 中 的 子 查询 直接 当 
作 一 个 常数 来 处 理 ， 我 们 可 以 通过 EXPLAIN 来 验证 这 点 : 


4----+------------- +------- +。。。+------ +------------------------------ + 
| id | select_type | table |...| rows | Extra | 
+----+------------- +------- a t------ +------------------------------ + 
| 1 | PRIMARY | City |...| 6 | Using where; Using index | 
| 2 | SUBQUERY | NULL |...| NULL | Select tables optimized away | 
+----+------------- +------- ae t---4-0- +------------------------------ 十 
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在 邮件 组 和 IRC 聊天 频道 中 ， 通 常会 看 到 这 样 的 问题 : 如 何在 同一 个 查询 中 统计 同一 
个 列 的 不 同 值 的 数量 ， 以 减少 查询 的 语句 量 。 例 如 ， 假 设 可 能 需要 通过 一 个 查询 返回 各 
种 不 同 颜色 的 商品 数量 ， 此 时 不 能 使 用 OR 语句 (比如 SELECT COUNT(color='blue' OR 
color='red') FROM items;)， 因 为 这 样 做 就 无 法 区 分 不 同 颜色 的 商品 数量 ; 也 不 能 在 
WHERE 条 件 中 指定 颜色 (比如 SELECT COUNT(*) FROM 'items WHERE color='blue' AND 
color='RED' ;)， 因 为 颜色 的 条 件 是 互 斥 的 。 下 面 的 查询 可 以 在 一 定 程度 上 解决 这 个 问 
题 生 5， 
mysql> SELECT SUM(IF(color = 'blue', 1, 0)) AS blue,SUM(IF(color = 'red', 1, 0)) 
-> AS red FROM items; 

也 可 以 使 用 COUNT () 而 不 是 SUM() 实现 同样 的 目的 ， 只 需要 将 满足 条 件 设 置 为 真 ， 不 满 
足 条 件 设置 为 NULL 即 可 : 


mysql> SELECT COUNT(color = 'blue' OR NULL) AS blue, COUNT(color = 'red' OR NULL) 
-> AS red FROM items; 


使 用 近似 值 

有 时 候 某 些 业务 场景 并 不 要 求 完 全 精确 的 COUNT 值 ， 此 时 可 以 用 近似 值 来 代替 。EXPLAIN 
出 来 的 优化 器 估算 的 行 数 就 是 一 个 不 错 的 近似 值 ， 执 行 EXPLAIN 并 不 需要 真正 地 去 执行 
查询 ， 所 以 成 本 很 低 。 


很 多 时 候 ， 计 算 精 确 值 的 成 本 非常 高 ， 而 计算 近似 值 则 非常 简单 。 曾 经 有 一 个 客户 希望 
我 们 统计 他 的 网 站 的 当前 活跃 用 户 数 是 多 少 ， 这 个 活跃 用 户 数 保 存在 缓存 中 ， 过 期 时 间 
为 30 分 钟 ， 所 以 每 隔 30 分 钟 需 要 重新 计算 并 放 入 缓存 。 因 此 这 个 活跃 用 户 数 本 身 就 不 
是 精确 值 ， 所 以 使 用 近似 值 代 替 是 可 以 接受 的 。 另 外 ， 如 果 要 精确 统计 在 线 人 数 ， 通 常 
WHERE 条 件 会 很 复杂 ， 一 方面 需要 剔除 当前 非 活 跃 用 户 ， 另 一 方面 还 要 剔除 系统 中 某 些 
特定 ID 的 “ 软 认 ”用 户 ， 去 掉 这 些 约束 条 件 对 总 数 的 影响 很 小 ， 但 却 可 能 很 好 地 提升 该 
查询 的 性 能 。 更 进一步 地 优化 则 可 以 尝试 删除 DISTINCT 这 样 的 约束 来 避免 文件 排序 。 这 
样 重 写 过 的 查询 要 比 原来 的 精确 统计 的 查询 快 很 多 ， 而 返回 的 结果 则 几乎 相同 。 


更 复杂 的 优化 

通常 来 说 ，COUNT ( ) 都 需要 扫描 大 量 的 行 (意味 着 要 访问 大 量 数据 ) 才能 获得 精确 的 结 
宁 ， 因 此 是 很 难 优化 的 。 除 了 前 面 的 方法 ， 在 MySQL 层面 还 能 做 的 就 只 有 索引 覆盖 扫 
描 了 。 如 果 这 还 不 够 ,就 需要 考虑 修改 应 用 的 架构 ,可 以 增加 汇总 表 ( 第 4 章 已 经 介绍 过 )， 
或 者 增加 类 似 Memcached 这 样 的 外 部 缓存 系统 。 可 能 很 快 你 就 会 发 现 陷 入 到 一 个 熟悉 的 
困境 ,，“ 快 速 ， 精 确 和 实现 简单 "， 三 者 永远 只 能 满足 其 二 ， 必 须 舍 掉 其 中 一 个 。 


注 25 : 也 可 以 写成 这 样 的 SUM() 表达 式 : SUM(color = 'blue')，SUM(color = 'red'), 
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6.7.2 优化 关联 查询 
这 个 话题 基本 上 整 本 书 都 在 讨论 ， 这 里 需要 特别 提 到 的 是 : 


。 确保 ON 或 者 USING + PAF LABS. 在 创建 索引 的 时 候 就 要 考虑 到 关联 的 顺序 。 
当 表 A FIZ BAF < 关联 的 时 候 ， 如 果 优 化 器 的 关联 顺序 是 B、A， 那 么 就 不 需要 在 
B 表 的 对 应 列 上 建 上 索引 。 没 有 用 到 的 索引 只 会 带 来 额外 的 负担 。 一 般 来 说 ， 除 非 
有 其 他 理由 ， 否 则 只 需要 在 关联 顺序 中 的 第 二 个 表 的 相应 列 上 创建 索引 。 

o 确保 任何 的 GROUP BY 和 ORDER BY 中 的 表达 式 只 涉及 到 一 个 表 中 的 列 ， 这 样 MySQL 
才 有 可 能 使 用 索引 来 优化 这 个 过 程 。 

e XHAR MySQL 的 时 候 需 要 注意 : 关联 语法 、 运 算 符 优 先 级 等 其 他 可 能 会 发 生变 化 
的 地 方 。 因 为 以 前 是 普通 关联 的 地 方 可 能 会 变 成 笛 卡 儿 积 ， 不 同类 型 的 关联 可 能 会 
生成 不 同 的 结果 等 。 


6.7.3 优化 子 查询 

关于 子 查询 优化 我 们 给 出 的 最 重要 的 优化 建议 就 是 尽 可 能 使 用 关联 查询 代替 ， 至 少 当前 
的 MySQL 版 本 需要 这 样 。 本 章 的 前 面 章节 已 经 详细 介绍 了 这 点 。“ 尽 可 能 使 用 关联 ”并 
不 是 绝对 的 ， 如 果 使 用 的 是 MySQL 5.6 或 更 新 的 版 本 或 者 MariaDB ， 那 么 就 可 以 直接 忽 
略 关 于 子 查询 的 这 些 建 议 了 。 


6.7.4 优化 GROUP BY 和 DISTINCT 

在 很 多 场景 下 ，MySQL 都 使 用 同样 的 办 法 优化 这 两 种 查询 ， 事 实 上 ，MySQL 优化 器 会 
在 内 部 处 理 的 时 候 相 互 转化 这 两 类 查询 。 它 们 都 可 以 使 用 索引 来 优化 ， 这 也 是 最 有 效 的 
优化 办 法 。 


在 MySQL 中 ， 当 无 法 使 用 索引 的 时 候 ，GROUP BY 使 用 两 种 策略 来 完成 : 使 用 临时 表 或 
者 文件 排序 来 做 分 组 。 对 于 任何 查询 语句 ， 这 两 种 策略 的 性 能 都 有 可 以 提升 的 地 方 。 可 
以 通过 使 用 提示 SQL BIG RESULT 和 SQL SMALL RESULT 来 让 优化 器 按照 你 希望 的 方式 运 
行 。 在 本 章 的 前 面 章节 我 们 已 经 讨论 了 这 所。 


如 果 需 要 对 关联 查询 做 分 组 (GROUP BY)， 并 且 是 按照 查找 表 中 的 某 个 列 进行 分 组 ， 那 
么 通常 采用 查找 表 的 标识 列 分 组 的 效率 会 比 其 他 列 更 高 。 例 如 下 面 的 查询 效率 不 会 很 好 : 
mysql> SELECT actor.first_name, actor.last_name, COUNT(*) 
-> FROM sakila.film_actor 


-> INNER JOIN sakila.actor USING(actor id) 
-> GROUP BY actor.first name, actor.last_name; 
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如 果 查 询 按照 下 面 的 写法 效率 则 会 更 高 ， 


mysql> SELECT actor.first_name, actor.last_name, COUNT(*) 
-> FROM sakila.film_actor 
-> INNER JOIN sakila.actor USING(actor_id) 
-> GROUP BY film_actor.actor_id; 
使 用 actor.actor_id 列 分 组 的 效率 甚至 会 比 使 用 film_actor.actor id 更 好 。 这 一 点 通 


过 简单 的 测试 即 可 验证 。 


这 个 查询 利用 了 演员 的 姓名 和 ID 直接 相关 的 特点 ， 因 此 改写 后 的 结果 不 受 影响 ， 但 显 
然 不 是 所 有 的 关联 语句 的 分 组 查询 都 可 以 改写 成 在 SELECT 中 直接 使 用 非 分 组 列 的 形式 
的 。 其 至 可 能 会 在 服务 器 上 设置 SQL_MODE 来 禁止 这 样 的 写法 。 如 果 是 这 样 ， 也 可 以 通过 
MIN() 或 者 MAX() 函数 来 绕 过 这 种 限制 ,但 一 定 要 清楚 ，SELECT 后 面 出 现 的 非 分 组 列 一 
定 是 直接 依赖 分 组 列 ， 并 且 在 每 个 组 内 的 值 是 唯一 的 ， 或 者 是 业务 上 根本 不 在 乎 这 个 值 
具体 是 什么 : 


mysql> SELECT MIN(actor.first_name), MAX(actor.last_name), ...; 


较真 的 人 可 能 会 说 这 样 写 的 分 组 查询 是 有 问题 的 ， 确 实 如 此 。 从 MIN() 或 者 MAX() 函 
数 的 用 法 就 可 以 看 出 这 个 查询 是 有 问题 的 。 但 若 更 在 乎 的 是 MySQL 运行 查询 的 效率 
时 这 样 做 也 无 可 厚 非 。 如 果实 在 较真 的 话 也 可 以 改写 成 下 面 的 形式 : | 
mysql> SELECT actor.first_name, actor.last_name, c.cnt 

-> FROM sakila.actor 

-> INNER JOIN ( 

> SELECT actor_id, COUNT(*) AS cnt 

> FROM sakila.film_actor 

-> GROUP BY actor id 

>  )ASc USING(actor_id) ; 
这 样 写 更 满足 关系 理论 ， 但 成 本 有 点 高 ， 因 为 子 查询 需要 创建 和 填充 临时 表 ， 而 子 查询 
中 创建 的 临时 表 是 没有 任何 索引 的 “。 


在 分 组 查询 的 SELECT 中 直接 使 用 非 分 组 列 通 稍 都 不 是 什么 好 主意 ， 因 为 这 样 的 结果 通 沉 
是 不 定 的 ， 当 索引 改变 ， 或 者 优化 器 选择 不 同 的 优化 策略 时 都 可 能 导致 结果 不 一 样 。 我 
们 磁 到 的 大 多 数 这 种 查询 最 后 都 导致 了 故障 (因为 MySQL 不 会 对 这 类 查询 返回 错误 )， 
而 且 这 种 写法 大 部 分 是 由 于 偷懒 而 不 是 为 优化 而 故意 这 么 设计 的 。 建 议 始终 使 用 含义 明 
确 的 语法 。 事 实 上， 我 们 建议 将 MySQL 的 SOL_MODE 设置 为 包含 ONLY_FULL_GROUP_BY, 
这 时 MySQL 会 对 这 类 查询 直接 返回 一 个 错误 ， 提 醒 你 需要 重 写 这 个 查询 。 


如 果 没 有 通过 ORDER BY 子 句 显 式 地 指定 排序 列 ， 当 查询 使 用 GROUP BY 子 句 的 时 候 ， 结 


注 26 : 值得 一 提 的 是 ，MariaDB 修复 了 这 个 限制 。 
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果 集 会 自动 按照 分 组 的 字段 进行 排序 。 如 果 不 关 心 结 果 集 的 顺序 ， 而 这 种 默认 排序 又 导 
致 了 需要 文件 排序 ， 则 可 以 使 用 ORDER BY NULL, Lk MySQL 不 再 进行 文件 排序 。 也 可 
以 在 GROUP BY 子 句 中 直接 使 用 DESC 或 者 ASC 关 键 字 ,使 分 组 的 结果 集 按 需要 的 方向 排序 。 


优化 GROUP BY WITH ROLLUP 

分 组 查询 的 一 个 变种 就 是 要 求 MySQL 对 返回 的 分 组 结果 再 做 一 次 超级 聚合 。 可 以 使 
用 WITH ROLLUP 子 句 来 实现 这 种 逻辑 ， 但 可 能 会 不 够 优化 。 可 以 通过 EXPLAIN 来 观察 其 
执行 计划 ， 特 别 要 注意 分 组 是 否 是 通过 文件 排序 或 者 临时 表 实 现 的 。 然 后 再 去 掉 WITH 
ROLLUP 子 句 看 执行 计划 是 否 相 同 。 也 可 以 通过 本 节 前 面 介绍 的 优化 器 提示 来 固定 执行 计 
划 。 


很 多 时 候 ， 如 果 可 以 ， 在 应 用 程序 中 做 超级 聚合 是 更 好 的 ， 虽 然 这 需要 返回 给 客户 端 更 
多 的 结果 。 也 可 以 在 FROM 子 句 中 典 套 使 用 子 查询 ,或 者 是 通过 一 个 临时 表 存 放 中 间 数 据 ， 
然后 和 临时 表 执 行 UNION 来 得 到 最 终结 果 。 


最 好 的 办 法 是 尽 可 能 的 将 WITH ROLLUP 功能 转移 到 应 用 程序 中 处 理 。 


6.7.5 优化 LIMIT 分 页 

在 系统 中 需要 进行 分 页 操作 的 时 候 ， 我 们 通常 会 使 用 LIMIT 加 上 偏 移 量 的 办 法 实现 ， 同 
时 加 上 合适 的 ORDER BY 子 句 。 如 果 有 对 应 的 索引 ， 通 常 效 率 会 不 错 ， 否 则 ，MySQL 需 
要 做 大 量 的 文件 排序 操作 。 


一 个 非常 常见 又 令 人 头疼 的 问题 就 是 ， 在 偏 移 量 非常 大 的 上 时候”， 例 如 可 能 是 LIMIT 
1000,20 这 样 的 查询 ， 这 时 MySQL 需要 查询 10 020 条 记录 然后 只 返回 最 后 20 条 ， 前 面 
10 000 条 记录 都 将 被 抛弃 ， 这 样 的 代价 非常 高 。 如 果 所 有 的 页 面 被 访问 的 频率 都 相同 ， 
那么 这 样 的 查询 平均 需要 访问 半 个 表 的 数据 。 要 优化 这 种 查询 ， 要 么 是 在 页 面 中 限制 分 
页 的 数量 ， 要 么 是 优化 大 偏 移 量 的 性 能 。 


优化 此 类 分 页 查询 的 一 个 最 简单 的 办 法 就 是 尽 可 能 地 使 用 索引 覆盖 扫描 ， 而 不 是 查询 所 
有 的 列 。 然 后 根据 需要 做 一 次 关联 操作 再 返回 所 需 的 列 。 对 于 偏 移 量 很 大 的 时 候 ， 这 样 
做 的 效率 会 提升 非常 大 。 考 虑 下 面 的 查询 : 


mysql> SELECT film id, description FROM sakila.film ORDER BY title LIMIT 50, 5; 


如 果 这 个 表 非 常 大 ， 那 么 这 个 查询 最 好 改写 成 下 面 的 样子 : 


注 27 : 翻 页 到 非常 靠 后 的 页 面 。 一 一 译 者 注 


6.7 优化 特定 类 型 的 查询 | 241 


mysql> SELECT film.film_id, film.description 

-> FROM sakila.film 

-> INNER JOIN ( 

-> SELECT film id FROM sakila.film 

-> ORDER BY title LIMIT 50, 5 

->  ) AS lim USING(film_id); 
这 里 的 “延迟 关联 ”将 大 大 提升 查询 效率 ， 它 让 MySQL 扫描 尽 可 能 少 的 页 面 ， 获 取 需 
要 访问 的 记录 后 再 根据 关联 列 回 原 表 查询 需要 的 所 有 列 。 这 个 技术 也 可 以 用 于 优化 关联 
查询 中 的 LIMIT FA. 


有 了 时候 也 可 以 将 LIMIT 查询 转换 为 已 知 位 置 的 查询 ， 让 MySQL 通过 范围 扫描 获得 到 对 
应 的 结果 。 例 如 ， 如 果 在 一 个 位 置 列 上 有 索引 ， 并 且 预 先 计 算出 了 边界 值 ， 上 面 的 查询 
就 可 以 改写 为 : 
mysql> SELECT film_id, description FROM sakila.film 
-> WHERE position BETWEEN 50 AND 54 ORDER BY position; 
对 数据 进行 排名 的 问题 也 与 此 类 似 ， 但 往往 还 会 同时 和 GROUP BY 混合 使 用 。 在 这 种 情况 
下 通常 都 需要 预先 计算 并 存储 排名 信息 。 


LIMIT 和 OFFSET 的 问题 ， 其 实 是 OFFSET 的 问题 ， 它 会 导致 MySQL 扫描 大 量 不 需要 的 
行 然 后 再 抛弃 掉 。 如 果 可 以 使 用 书签 记录 上 次 取 数 据 的 位 置 ， 那 么 下 次 就 可 以 直接 从 该 
书签 记录 的 位 置 开始 扫描 ， 这 样 就 可 以 避免 使 用 0FFSET。 例 如 ， 若 需要 按照 租借 记录 做 
翻 页 ， 那 么 可 以 根据 最 新 一 条 租借 记录 向 后 追 涛 ， 这 种 做 法 可 行 是 因为 租借 记录 的 主键 
是 单调 增长 的 。 首 先 使 用 下 面 的 查询 获得 第 一 组 结果 : 

mysql> SELECT * FROM sakila.rental 

-> ORDER BY rental_id DESC LIMIT 20; 

假设 上 面 的 查询 返回 的 是 主键 为 16 049 到 16 030 的 租借 记录 ， 那 么 下 一 页 查询 就 可 以 
从 16 030 这 个 点 开始 : 

mysql> SELECT * FROM sakila.rental 


-> WHERE rental_id < 16030. 
-> ORDER BY rental_id DESC LIMIT 20; 


该 技术 的 好 处 是 无 论 翻 页 到 多 么 后 面 ， 其 性 能 都 会 很 好 。 


其 他 优化 办 法 还 包括 使 用 预先 计算 的 汇总 表 ， 或 者 关联 到 一 个 元 余 表 ， 元 余 表 只 包含 主 
键 列 和 需要 做 排序 的 数据 列 。 还 可 以 使 用 Sphinx 优化 一 些 搜索 操作 ， 参 考 附 录 可 以 获 
得 更 多 相关 信息 。 
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6.7.6 优化 SQL_CALC_FOUND_ROWS 


分 页 的 时 候 , 另 一 个 常用 的 技巧 是 在 LIMIT 语 句 中 加 上 SQL_CALC_FOUND_ROWS 提示 (hint) , 
这 样 就 可 以 获得 去 掉 LIMIT 以 后 满足 条 件 的 行 数 ， 因 此 可 以 作为 分 页 的 总 数 。 看 起 来 ， 
MySQL 做 了 一 些 非常 “高 深 ” 的 优化 ， 像 是 通过 某 种 方法 预测 了 总 行 数 。 但 实际 上 ， 
MySQL 只 有 在 扫描 了 所 有 满足 条 件 的 行 以 后 ， 才 会 知道 行 数 ， 所 以 加 上 这 个 提示 以 后 ， 
不 管 是 否 需 要 ，MySQL 都 会 扫描 所 有 满足 条 件 的 行 ， 然 后 再 抛弃 掉 不 需要 的 行 ， 而 不 
是 在 满足 LIMIT 的 行 数 后 就 终止 扫描 。 所 以 该 提示 的 代价 可 能 非常 高 。 


一 个 更 好 的 设计 是 将 具体 的 页 数 换 成 “下 一 页 ”按钮 ， 假 设 每 页 显示 20 条 记录 ， 那 么 
我 们 每 次 查询 时 都 是 用 LIMIT 返 回 21 条 记录 并 只 显示 20 条 ， 如 果 第 21 RFE, MWA 
我 们 就 显示 “下 一 页 ”按钮 ， 否 则 就 说 明 没 有 更 多 的 数据 ， 也 就 无 须 显 示 “ 下 一 页 ” 按 
钮 了 。 


另 一 种 做 法 是 先 获取 并 缓存 较 多 的 数据 一 一 例如 ， 缓 存 1 000 条 一 一 然后 每 次 分 页 都 从 
这 个 缓存 中 获取 。 这 样 做 可 以 让 应 用 程序 根据 结果 集 的 大 小 采取 不 同 的 策略 ， 如 果 结 果 
集 少 于 1 000， 就 可 以 在 页 面 上 显示 所 有 的 分 页 链接 ， 因 为 数据 都 在 缓存 中 ， 所 以 这 样 
做 性 能 不 会 有 问题 。 如 果 结 果 集 大 于 1 000， 则 可 以 在 页 面 上 设计 一 个 额外 的 “找到 的 
结果 多 于 1 000 条 ”之 类 的 按钮 。 这 两 种 策略 都 比 每 次 生成 全 部 结果 集 再 抛弃 掉 不 需要 
的 数据 的 效率 要 高 很 多 。 


有 时 候 也 可 以 考虑 使 用 EXPLAIN 的 结果 中 的 rows 列 的 值 来 作为 结果 集 总 数 的 近似 值 
(实际 上 Google 的 搜索 结果 总 数 也 是 个 近似 值 )。 当 需要 精确 结果 的 时 候 ， 再 单独 使 用 
COUNT (*) 来 满足 需求 ， 这 时 如 果 能 够 使 用 索引 覆盖 扫描 则 通常 也 会 比 SQL. CALC_FOUND_ 
ROWS 快 得 多 。 


6.7.7 优化 UNION 查询 


MySQL 总 是 通过 创建 并 填充 临时 表 的 方式 来 执行 UNION 查询 。 因 此 很 多 优化 策略 在 
UNION 查询 中 都 没 法 很 好 地 使 用 。 经 常 需要 手工 地 将 WHERE、 LIMIT, ORDER BY 等 子 句 “ 下 
推 ” 到 UNION 的 各 个 子 查 询 中 ， 以 便 优化 器 可 以 充分 利用 这 些 条 件 进 行 优化 (例如 ， 直 
接 将 这 些 子 句 元 余地 写 一 份 到 各 个 子 查询 )。 


除非 确实 需要 服务 器 消除 重复 的 行 ， 否 则 就 一 定 要 使 用 UNION ALL， 这 一 点 很 重要 。 如 
果 没 有 ALL 关键 字 ，MySQL 会 给 临时 表 加 上 DISTINCT 选项 ， 这 会 导致 对 整个 临时 表 的 
数据 做 唯一 性 检查 。 这 样 做 的 代价 非常 高 。 即 使 有 ALL 关键 字 ，MySQL 仍然 会 使 用 临 
时 表 存 储 结果 。 事 实 上 , MySQL 总 是 将 结果 放 入 临时 表 , 然后 再 读 出 , 再 返回 给 客户 端 。 
虽然 很 多 时 候 这 样 做 是 没有 必要 的 (例如 ，MySQL 可 以 直接 把 这 些 结果 返回 给 客户 端 )。 
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[加 > 6.7.8 静态 查询 分 析 


Percona Toolkit 中 的 pt-query-advisor 能 够 解析 查询 日 志 、 分 析 查 询 模式 ， 然 后 给 出 所 有 
可 能 存在 潜在 问题 的 查询 ， 并 给 出 足够 详细 的 建议 。 这 像 是 给 MySQL 所 有 的 查询 做 一 
次 全 面 的 健康 检查 。 它 能 检测 出 许多 常见 的 问题 ， 诸 如 我 们 前 面 介绍 的 内 容 。 


6.7.9 使 用 用 户 目 定义 变量 

用 户 自 定 义 变量 是 一 个 容易 被 遗忘 的 MySQL 特性 ， 但 是 如 果 能 够 用 好 ， 发 挥 其 潜力 ， 
在 某 些 场景 可 以 写 出 非常 高 效 的 查询 语句 。 在 查询 中 混合 使 用 过 程 化 和 关系 化 逻辑 的 时 
候 ， 自 定义 变量 可 能 会 非常 有 用 。 单 纯 的 关系 查询 将 所 有 的 东西 都 当成 无 序 的 数据 集合 ， 
并 且 一 次 性 操作 它们 。MySQL 则 采用 了 更 加 程序 化 的 处 理 方式 。MySQL 的 这 种 方式 有 
它 的 弱点 ， 但 如 果 能 熟练 地 掌握 ， 则 会 发 现 其 强大 之 处 ， 而 用 户 自 定义 变量 也 可 以 给 这 
种 方式 带 来 很 大 的 帮助 。 


用 户 自 定义 变量 是 一 个 用 来 存储 内 容 的 临时 容器 ， 在 连接 MySQL 的 整个 过 程 中 都 存在 。 
可 以 使 用 下 面 的 SET 和 SELECT BRE MET” ， 
mysql> SET @one := 1; 


mysql> SET @min_actor := (SELECT MIN(actor id) FROM sakila.actor); 
mysql> SET @last_week := CURRENT_DATE-INTERVAL 1 WEEK; 


然后 可 以 在 任何 可 以 使 用 表达 式 的 地 方 使 用 这 些 自 定义 变量 : 
mysql> SELECT ... WHERE col <= @last_week; 


在 了 解 自 定义 变量 的 强大 之 前 ， 我 们 再 看 看 它 自身 的 一 些 属性 和 限制 ， 看 看 在 哪些 场景 
下 我 们 不 能 使 用 用 户 自 定义 变量 : 


。 使 用 自 定义 变量 的 查询 ， 无 法 使 用 查询 缓存 。 

。 不 能 在 使 用 常量 或 者 标识 符 的 地 方 使 用 自 定义 变量 ,例如 表 名 、 列 名 和 LIMIT 子 句 中 。 

。 用 户 自 定义 变量 的 生命 周期 是 在 一 个 连接 中 有 效 ， 所 以 不 能 用 它们 来 做 连接 间 的 通 
EP 

。 ”如 果 使 用 连接 池 或 者 持久 化 连接 ， 自 定义 变量 可 能 让 看 起 来 毫 无 关系 的 代码 发 生 交 
H (如 果 是 这 样 ， 通 常 是 代码 bug 或 者 连接 池 bug， 这 类 情况 确实 可 能 发 生 )。 

。 在 5.0 之 前 的 版 本 ， 是 大 小 写 敏感 的 ， 所 以 要 注意 代码 在 不 同 MySQL 版 本 间 的 兼容 
性 问题 。 

e 不 能 显 式 地 声明 自 定义 变量 的 类 型 。 确 定 未 定义 变量 的 具体 类 型 的 时 机 在 不 同 


28: 在 某 些 场景 下 ， 也 可 以 直接 使 用 = 进行 赋值 ， 不 过 为 了 可 免 歧 义 ， 建 议 始终 使 用 :=。 
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MySQL 版 本 中 也 可 能 不 一 样 。 如 果 你 希望 变量 是 整数 类 型 ， 那 么 最 好 在 初始 化 的 时 
候 就 赋值 为 0， 如果 希望 是 浮 点 型 则 赋值 为 0.0， 如 果 和 希望 是 字符 串 则 赋值 为 "， 用 
户 自 定义 变量 的 类 型 在 赋值 的 时 候 会 改变 。MySQL 的 用 户 自 定 义 变量 是 一 个 动态 

类 型 。 | 

MySQL 优化 器 在 某 些 场景 下 可 能 会 将 这 些 变量 优化 掉 ， 这 可 能 导致 代码 不 按 预 想 的 

方式 运行 。 

赋值 的 顺序 和 赋值 的 时 间 点 并 不 总 是 固定 的 ， 这 依赖 于 优化 器 的 决定 。 实 际 情况 可 

能 很 让 人 困惑 ， 后 面 我 们 将 看 到 这 一 所 。 

赋值 符号 := 的 优先 级 非常 低 ， 所 以 需要 注意 ， 赋 值 表 达 式 应 该 使 用 明确 的 括号 。 

使 用 未 定义 变量 不 会 产生 任何 语法 错误 ， 如 果 没 有 意识 到 这 一 点， 非常 容易 犯错 。 


优化 排名 语句 | 

(AAP AELTER?” 的 一 个 重要 特性 是 你 可 以 在 给 一 个 变量 赋值 的 同时 使 用 这 个 变 
量 。 换 句 话说， 用 户 自 定 义 变量 的 赋值 具有 “ 左 值 ”特性 。 下 面 的 例子 展示 了 如 何 使 用 
变量 来 实现 一 个 类 似 “ 行 号 (row number)” AIDE : 


mysql> SET @rownum := 0; 

mysql> SELECT actor_id, @rownum := @rownum + 1 AS rownum 
-> FROM sakila.actor LIMIT 3; 

+---------- +-------- + 


_ | actor id | rownum | 


这 个 例子 的 实际 意义 并 不 大 ， 它 只 是 实现 了 一 个 和 该 表 主 键 一 样 的 列 。 不 过 ， 我 们 也 可 
以 把 这 当 作 一 个 排名 。 现 在 我 们 来 看 一 个 更 复杂 的 用 法 。 我 们 先 编写 一 个 查询 获取 演 过 
最 多 电影 的 前 10 位 演员 ， 然 后 根据 他 们 的 出 演 电 影 次 数 做 一 个 排名 ， 如 果 出 演 的 电影 
数量 一 样 ， 则 排名 相同 。 我 们 先 编写 一 个 查询 ， 返 回 每 个 演员 参 演 电影 的 数量 : 


mysql> SELECT actor_id, COUNT(*) as cnt 
-> FROM sakila.film_actor 
-> GROUP BY actor_id 
-> ORDER BY cnt DESC 
-> LIMIT 10; 


+---------- +----- + 
| actor id | cnt | 
+---------- +----- + 
| 107 | 42 | 
| 102 | 41 | 
| 198 | 40 | 


注 29 : 为 行文 方便 ,后面 在 不 引起 歧义 的 情况 下 将 简称 为 “变量 ”。 一 一 译 者 注 
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| 

| 23 | 37 | 
| 81 | 36 | 
| 106 | 35 | 
| 60 | 35 | 
| 13 | 35 | 
| 158 | 35 | 
+---------- +----- + 


现在 我 们 再 把 排名 加 上 去 ， 这 里 看 到 有 四 名 演员 都 参 演 了 35 部 电影 ， 所 以 他 们 的 排名 
应 该 是 相同 的 。 我 们 使 用 三 个 变量 来 实现 : 一 个 用 来 记录 当前 的 排名 ， 一 个 用 来 记录 前 
一 个 演员 的 排名 ,还 有 一 个 用 来 记录 当前 演员 参 演 的 电影 数量 。 只 有 当前 演员 参 演 的 电 
影 的 数量 和 前 一 个 演员 不 同时 ， 排 名 才 变 化 。 我 们 先 试 试 下 面 的 写法 : 


mysql> SET @curr cnt := 0, @prev_cnt := 0, @rank := 0; 
mysql> SELECT actor_id, 
->  @curr_cnt := COUNT(*) AS cnt, 
->  @rank := IF(@prev_cnt <> @curr_cnt, @rank + 1, @rank) AS rank, 
-> @prev_cnt := @curr_cnt AS dummy 
-> FROM sakila.film_actor 
-> GROUP BY actor_id 
-> ORDER BY cnt DESC 


-> LIMIT 10; 

+---------- +----- +------ +------- + 
| actor id | cnt | rank | dummy | 
+---------- +----- +------ +------- + 
| 107 | 42 | o| 0 | 
| 102 | 41 | 0 | 0 | 


Oops 一 一 排名 和 统计 列 一 直 都 无 法 更 新 ， 这 是 什么 原因 ? 


对 这 类 问题 ， 是 没 法 给 出 一 个 放 之 四 海光 准 的 答案 的 ， 例 如 ， 一 个 变量 名 的 拼写 错误 就 
可 能 导致 这 样 的 问题 (这 个 案例 中 并 不 是 这 个 原因 )， 具 体 问题 要 具体 分 析 。 这 里 ， 通 
过 EXPLAIN 我 们 看 到 将 会 使 用 临时 表 和 文件 排序 ， 所 以 可 能 是 由 于 变量 赋值 的 时 间 和 我 
们 预料 的 不 同 。 

在 使 用 用 户 自 定义 变量 的 时 候 ， 经 常会 遇 到 一 些 “ 诡 异 ” 的 现象 ， 要 揪 出 这 些 问 题 的 原 
因 通 稼 都 不 容易 ， 但 是 相 比 其 带 来 的 好 处 ， 深 究 这 些 问题 是 值得 的 。 使 用 SQL 语句 生成 
排名 值 通常 需要 做 两 次 计算 ， 例 如， 需要 额外 计算 一 次 出 演 过 相同 数量 电影 的 演员 有 哪 
些 。 使 用 变量 则 可 一 次 完成 一 一 这 对 性 能 是 一 个 很 大 的 提升 。 


针对 这 个 案例 ， 另 一 个 简单 的 方案 是 在 FROM 子 句 中 使 用 子 查询 生成 一 个 中 间 的 临 
时 表 : 
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mysql> SET @curr_cnt := 0, @prev_cnt := 0, @rank := 0; 
-> SELECT actor_id, 
-> @curr_| ae = cnt AS cnt, 
->  @rank = IF(@prev_cnt <> @curr_cnt, @rank + 1, 6rank) AS rank, 
-> @prev_ cnt : = @curr_cnt AS dummy 
-> FROM ( 
> SELECT actor_id, COUNT(*) AS cnt 
> FROM sakila.film_actor 
-> GROUP BY actor_id 
> ORDER BY cnt DESC 
> 
> 


LIMIT 10 
) as der; 
+---------- +----- +------ +------- + 
| actor_id | cnt | rank | dummy | 
+---------- +----- +------ +------- + 
| 107 | 42] 1| 42] 
| 102 | 41 | 2 | 41 | 
| 198 | 40 | 3 | 40 | 
| 181 | 39| 4| 39] 
| 23 | 37| 5| 37] 
| 81| 36| 6] 36] 
| 106 | 35| 7| 35| 
| 6 | 35| 7| 35 | 
| 13 | 35| .7| 35| 
| 158 | 35| 7| 35 | 
+---------- +----- +------ +------- 十 
避免 重复 查询 刚刚 更 新 的 数据 


如 果 在 更 新 行 的 同时 又 希望 获得 该 行 的 信息 ， 要 怎么 做 才能 避免 重复 的 查询 呢 ? 不幸 的 
是 ，MySQL 并 不 支持 像 PostgreSQL 那样 的 UPDATE RETURNING 语法 ， 这 个 语法 可 以 帮 
你 在 更 新 行 的 时 候 同 时 返回 该 行 的 信息 。 还 好 在 MySQL 中 你 可 以 使 用 变量 来 解决 这 个 
问题 。 例 如 ， 我 们 的 一 个 客户 希望 能 够 更 高 效 地 更 新 一 条 记录 的 时 间 惟 ， 同 时 项 望 查询 
当前 记录 中 存放 的 时 间 惟 是 什么 。 简 单 地 ， 可 以 用 下 面 的 代码 来 实现 : 


UPDATE t1 SET lastUpdated = NOW() WHERE id = 1; 
SELECT lastUpdated FROM t1 WHERE id = 1; 


使 用 变量 ， 我 们 可 以 按 如 下 方式 重 写 查询 : 


UPDATE t1 SET lastUpdated = NOW() WHERE id = 1 AND @now := NOW(); 
SELECT @now; 


上 面 看 起 来 仍然 需要 两 个 查询 ， 需 要 两 次 网 络 来 回 ， 但 是 这 里 的 第 二 个 查询 无 须 访问 任 
何 数据 表 ， 所 以 会 快 非常 多 。( 如 果 网 络 延 迟 非常 大 ， 那 么 这 个 优化 的 意义 可 能 不 大 ， 不 
过 对 这 个 客户 ， 这 样 做 的 效果 很 好 。) 
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统计 更 新 和 插入 的 数量 
当 使 用 了 INSERT ON DUPLICATE KEY UPDATE 的 时 候 , 如 果 想 知道 到 底 插 入 了 多 少 行 数 据 ， 
到 底 有 多 少数 据 是 因为 冲突 而 改写 成 更 新 操作 的 ? Kerstian Köhntopp 在 他 的 博客 上 给 出 
了 一 个 解决 这 个 问题 的 办 法 生 ”。 实 现 办 法 的 本 质 如 下 : 

INSERT INTO t1(c1, c2) VALUES(4, 4), (2, 1), (3, 1) 

ON DUPLICATE KEY UPDATE 

c1 = VALUES(c1) + ( o * ( @x := @x +1 ) ); 

当 每 次 由 于 冲突 导致 更 新 时 对 变量 @x 自 增 一 次 。 然 后 通过 对 这 个 表达 式 乘 以 0 来 让 其 不 
影 啊 要 更 新 的 内 容 。 另 外 ，MySQL 的 协议 会 返回 被 更 改 的 总 行 数 ， 所 以 不 需要 单独 统 
计 这 个 值 。 


确定 取 值 的 顺序 
使 用 用 户 自 定义 变量 的 一 个 最 常见 的 问题 就 是 没有 注意 到 在 赋值 和 读 取 变量 的 时 候 
”可 能 是 在 查询 的 不 同 阶段 。 例 如 ， 在 SELECT 子 句 中 进行 赋值 然后 在 WHERE 子 句 中 读 
取 变 量 ， 则 可 能 变量 取 值 并 不 如 你 所 想 。 下 面 的 查询 看 起 来 只 返回 一 个 结果 ， 但 事实 
并 非 如 此 : 
mysql> SET @rownum := 0; 
mysql> SELECT actor_id, @rownum := @rownum + 1 AS cnt 


-> FROM sakila.actor 
-> WHERE @rownum <= 1; 


+---------- +------ + 
| actor_id | cnt | 
+---------- +------ + 
| 1| 1| 
| 2| 2| 
+---------- +------ + 


因为 WHERE 和 SELECT 是 在 查询 执行 的 不 同 阶段 被 执行 的 。 如 果 在 查询 中 再 加 入 ORDER 
BY 的 话 ， 结 果 可 能 会 更 不 同 : 
mysql> SET @rownum := 0; 
mysql> SELECT actor id, @rownum := @rownum + 1 AS cnt 
-> FROM sakila.actor 


-> WHERE @rownum <= 1 
-> ORDER BY first_name; 


这 是 因为 ORDER BY 引入 了 文件 排序 ， 而 WHERE 条 件 是 在 文件 排序 操作 之 前 取 值 的 ， 所 以 
这 条 查询 会 返回 表 中 的 全 部 记录 。 解 决 这 个 问题 的 办 法 是 让 变量 的 赋值 和 取 值 发 生 在 执 
行 查询 的 同一 阶段 : 


注 30 : 44 http://mysqldump.azundris.com/archives/86-Down-the-dirty-road. html, 
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mysql> SET @rownum := 0; 
mysql> SELECT actor_id, @rownum AS rownum 
-> FROM sakila.actor 
-> WHERE (@rownum := @rownum + 1) <= 1; 
+---------- +-------- + 
| actor_id | rownum | 


小 测试 : 如 果 在 上 面 的 查询 中 再 加 上 ORDER BY， 那 会 返回 什么 结果 ? 试 试看 吧 。 如 果 
得 出 的 结果 出 乎 你 的 意料 ， 想 想 为 什么 ?再 看 下 面 这 个 查询 会 返回 什么 ， 下 面 的 查询 中 
ORDER BY 子 句 会 改变 变量 值 ， 那 WHERE 语句 执行 时 变量 值 是 多 少 。 
mysql> SET @rownum := 0; 
mysql> SELECT actor_id, first_name, @rownum AS rownum 
-> FROM sakila.actor 
-> WHERE @rownum <= 1 
-> ORDER BY first_name, LEAST(0, @rownum := @rownum + 1); 
这 个 最 出 人 意料 的 变量 行为 的 答案 可 以 在 EXPLAIN 语句 中 找到 ， 注 意 看 在 Extra 列 中 的 
“Using where”, “Using temporary” 或 者 “Using filesort” , 


在 上 面 的 最 后 一 个 例子 中 ， 我 们 引入 了 一 个 新 的 技巧 : 我 们 将 赋值 语句 放 到 LEAST () K 
数 中 ， 这 样 就 可 以 在 完全 不 改变 排序 顺序 的 时 候 完 成 赋值 操作 (在 上 面 例子 中 ，LEAST() 
函数 总 是 返回 0)。 这 个 技巧 在 不 希望 对 子 句 的 执行 结果 有 影响 却 又 要 完成 变量 赋值 的 
时 候 很 和 有 用。 这 个 例子 中 ， 无 须 在 返回 值 中 新 增 额外 列 。 这 样 的 函数 还 有 GREATEST ()、 
LENGHT()、ISNULL()、NULLIFL()、IF() 和 COALESCE()， 可 以 单独 使 用 也 可 以 组 合 使 用 。 
例如 ，COALESCE() 可 以 在 一 组 参数 中 取 第 一 个 已 经 被 定义 的 变量 。 


编写 偷懒 的 UNION 

假设 需要 编写 一 个 UNION 查询 ， 其 第 一 个 子 查 询 作 为 分 支 条 件 先 执行 ， 如 果 找 到 了 匹配 
的 行 ， 则 跳 过 第 二 个 分 支 。 在 某 些 业务 场景 中 确实 会 有 这 样 的 需求 ， 比 如 先 在 一 个 频繁 
访问 的 表 中 查找 “ 热 ” 数 据 ， 找 不 到 再 去 另外 一 个 较 少 访问 的 表 中 查找 “ 冷 ” 数 据 。( 区 
分 热 数 据 和 冷 数据 是 一 个 很 好 的 提高 缓存 命中 率 的 办 法 )。 


下 面 的 查询 会 在 两 个 地 方 查找 一 个 用 户 一 一 一 个 主 用 户 表 、 一 个 长 时 间 不 活跃 的 用 户 表 ， 
不 活跃 用 户 表 的 目的 是 为 了 实现 更 高 效 的 归档 : 


注 31 : Baron 认为 在 一 些 社 交 网 站 上 归档 一 些 常见 不 活跃 用 户 后 ， 用 户 重 新 回 到 网 站 时 有 这 样 的 需求 ， 当 
用 户 再 次 登录 时 , 一 方面 我 们 需要 将 其 从 归档 中 重新 拿 出 来 , 另外 , 还 可 以 给 他 发 送 一 份 欢 迎 邮 件 。 
这 对 一 些 不 活跃 的 用 户 是 非常 好 的 一 个 优化 。 在 第 11 章 我 们 还 会 再 次 讨论 这 个 问题 。 
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SELECT id FROM users WHERE id = 123 
UNION ALL 
SELECT id FROM users archived WHERE id = 123; 


上 面 这 个 查询 是 可 以 正常 工作 的 ， 但 是 即使 在 users 表 中 已 经 找到 了 记录 ， 上 面 的 查询 
还 是 会 去 归档 表 users_archived 中 再 查找 一 次 。 我 们 可 以 用 一 个 偷懒 的 UNION 查询 来 抑 
制 这 样 的 数据 返回 ， 而 且 只 有 当 第 一 个 表 中 没有 数据 时 ， 我 们 才 在 第 二 个 表 中 查询 。 一 
且 在 第 一 个 表 中 找到 记录 ， 我 们 就 定义 一 个 变量 Gfound。 我 们 通过 在 结果 列 中 做 一 次 赋 
值 来 实现 ， 然 后 将 赋值 放 在 函数 GREATEST 中 来 避免 返回 额外 的 数据 。 为 了 明确 我 们 的 结 
果 到 底 来 自 哪 个 表 ， 我 们 新 增 了 一 个 包含 表 名 的 列 。 最 后 我 们 需要 在 查询 的 末尾 将 变量 
重 置 为 NULL， 这 样 保证 遍历 时 不 干扰 后 面 的 结果 。 完 成 的 查询 如 下 : 


SELECT GREATEST(@found := -1, id) AS id, ‘users’ AS which tbl 
FROM users WHERE id = 1 
UNION ALL 
SELECT id, ‘users archived’ 
FROM users archived WHERE id = 1 AND @found IS NULL 
UNION ALL 
SELECT 1, ‘reset’ FROM DUAL WHERE ( @found := NULL ) IS NOT NULL; 


用 户 自 定 义 变 量 的 其 他 用 处 

不 仅 是 在 SELECT 语句 中 ,在 其 他 任何 类 型 的 SQL 语句 中 都 可 以 对 变量 进行 赋值 。 事 实 上 ， 
这 也 是 用 户 自 定义 变量 最 大 的 用 途 。 例 如 ， 可 以 像 前 面 使 用 子 查询 的 方式 改进 排名 语句 
一 样 来 改进 UPDATE 语句 。 


不 过 ， 我 们 需要 使 用 一 些 技巧 来 获得 我 们 希望 的 结果 。 有 了 时， 优化 器 会 把 变量 当 作 一 个 
编译 时 常量 来 对 待 ， 而 不 是 对 其 进行 赋值 。 将 冰 数 放 在 类 似 于 LEAST () 这 样 的 函数 中 通 
常 可 以 避免 这 样 的 问题 。 另 一 个 办 法 是 在 查询 被 执行 前 检查 变量 是 否 被 赋值 。 不 同 的 场 
景 下 使 用 不 同 的 办 法 。 


通过 一 些 实践 ， 可 以 了 解 所 有 用 户 自 定义 变量 能 够 做 的 有 趣 的 事情 ， 例 如 下 面 这 些 用 法 : 


。 查询 运行 时 计算 总 数 和 平均 值 。 

o 模拟 GROUP 语句 中 的 函数 FIRST() 和 LAST()。 

© 对 大 量 数据 做 一 些 数 据 计算 。 

© 计算 一 个 大 表 的 MDS 散 列 值 。 

。 编写 一 个 样本 处 理 函 数 ， 当 样本 中 的 数值 超过 某 个 边界 值 的 时 候 将 其 变 成 0。 
。 模拟 读 / 写 游 标 。 

e 在 SHOW 语句 的 WHERE 子 句 中 加 入 变量 值 。 
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C.J. DATE 的 难题 


C.J.DATE 建议 在 使 用 数据 库 设 计 方 法 时 尽量 让 SQL 数据 库 符 合 传 统 关 系数 据 库 
的 要 求 。 这 也 是 根据 关系 模型 设计 SQL 时 的 初 袁 ， 但 坦白 地 说 ， 在 这 一 点 上 ， 
MySQL 远 不 如 其 他 数据 库 管 理 系统 做 得 好 。 所 以 如 果 按 照 C.J. DATE 书 中 的 建议 


编写 的 适合 关系 模型 的 SQL EA E MySQL 中 运行 的 效率 并 不 高 ， 例 如 编写 一 个 
多 层 的 子 查询 。 很 不 站， 这 是 因为 MySQL 本 身 的 限制 导致 无 法 按照 标准 的 模式 运 
行 。 我 们 强烈 建议 你 阅读 这 本 书 SOL and Relational Theory: How to Write Accurate 
SOL Code (http://shop.xreilly.com/product/0636920022879.do) (O’Reilly 出 版 )， 
它 将 改变 你 对 SOL HA HAR, 


6.8 案例 学 习 


通常 ， 我 们 要 做 的 不 是 查询 优化 ， 不 是 库 表 结 构 优 化 ， 不 是 索引 优化 也 不 是 应 用 设计 优 
化 一 一 在 实践 中 可 能 要 面 对 所 有 这 些 搅和 在 一 起 的 情况 。 本 节 的 案例 将 为 大 家 介绍 一 些 
经 常 困扰 用 户 的 问题 和 解决 方法 。 另 外 我 们 还 要 推荐 Bil Karwin 的 书 SQL Antipatterns(— 
本 实践 型 的 书籍 ) 。 它 将 介绍 如 何 使 用 SQL 解决 各 种 程序 员 疑 难 杂 症 。 


6.8.1 使 用 MySQL 构建 一 个 队列 表 

使 用 MySQL 来 实现 队列 表 是 一 个 取 巧 的 做 法 ， 我 们 看 到 很 多 系统 在 高 流量 、 高 并 发 的 
情况 下 表现 并 不 好 。 典 型 的 模式 是 一 个 表 包 含 多 种 类 型 的 记录 :未 处 理 记 录 . 已 处 理 记 录 、 
正在 处 理 记 录 等 。 一 个 或 者 多 个 消费 者 线程 在 表 中 查找 未 处 理 的 记录 ， 然 后 声称 正在 处 
理 ， 当 处 理 完 成 后 ， 再 将 记录 更 新 成 已 处 理 状 态 。 一 般 的 ， 例 如 邮件 发 送 、 多 命令 处 理 、 
评论 修改 等 会 使 用 类 似 模 式 。 


通 当 有 两 个 原因 使 得 大 家 认为 这 样 的 处 理 方式 并 不 合适 。 第 一 ， 随 着 队列 表 越 来 越 大 和 
索引 深度 的 增加 ， 找 到 未 处 理 记录 的 速度 会 随 之 变 慢 。 你 可 以 通过 将 队列 表 分 成 两 部 分 
来 解决 这 个 问题 ， 就 是 将 已 处 理 记录 归档 或 者 存放 到 历史 表 ， 这 可 以 始终 保证 队列 表 很 


小 。 


第 二 ,一 般 的 处 理 过 程 分 两 步 ， 先 找到 未 处 理 记 录 然 后 加 锁 。 找 到 记录 会 增加 服务 器 的 
压力 ， 而 加 锁 操 作 则 会 让 各 个 消费 者 进程 增加 竞争 ， 因 为 这 是 一 个 串 行 化 的 操作 。 在 第 
11 章 ， 我 们 会 看 到 这 为 什么 会 限制 可 扩展 性 。 





找到 未 处 理 记录 一 般 来 说 都 没 问 题 ， 如 果 有 问题 则 可 以 通过 使 用 消息 的 方式 来 通知 各 个 
消费 者 。 具 体 的 ， 可 以 使 用 一 个 带 有 注释 的 SLEEP() 函数 做 超时 处 理 ， 如 下 : 


SELECT /* waiting on unsent emails */ SLEEP(10000); 


这 让 线程 一 直 阻 塞 ， 直 到 两 个 条 件 之 一 满足 : 10 000 秒 后 超时 ， 或 者 另 一 个 线程 使 用 
KILL QUERY 结束 当前 的 SLEEP。 因 此 ， 当 再 向 队列 表 中 新 增 一 批 数据 后 ， 可 以 通过 SHOW 
PROCESSLIST， 根 据 注 释 找 到 当前 正在 休眠 的 线程 ， 并 将 其 KILL。 你 可 以 使 用 函数 GET_ 
LOCK() #1 RELEASE_LOCK() 来 实现 通知 ， 或 者 可 以 在 数据 库 之 外 实现 ， 例 如 使 用 一 个 消 
息 服 务 。 


最 后 需要 解决 的 问题 是 如 何 让 消费 者 标记 正在 处 理 的 记录 ， 而 不 至 于 让 多 个 消费 者 重复 
处 理 一 个 记录 。 我 们 看 到 大 家 一 般 使 用 SELECT FOR UPDATE 来 实现 。 这 通常 是 扩展 性 问 
题 的 根源 ， 这 会 导致 大 量 的 事务 阻塞 并 等 待 。 


一 般 , 我 们 要 尽量 避免 使 用 SELECT FOR UPDATE, 不 光 是 队列 表 , 任 何 情况 下 都 要 尽量 避免 。 
总 是 有 别 的 更 好 的 办 法 实现 你 的 目的 。 在 队列 表 的 案例 中 ， 可 以 直接 使 用 UPDATE 来 更 新 
记录 ,然后 检查 是 否 还 有 其 他 的 记录 需要 处 理 。 我 们 看 看 具体 实现 ,我 们 先 建立 如 下 的 表 : 


CREATE TABLE unsent emails ( 
id INT NOT NULL PRIMARY KEY AUTO INCREMENT, 
-- columns for the message, from, to, subject, etc. 
status ENUM('unsent', ‘claimed’, ‘sent'), 
owner INT UNSIGNED NOT NULL DEFAULT 0， 
ts TIMESTAMP, 
KEY (owner, status, ts) 
) 


该 表 的 列 owner 用 来 存储 当前 正在 处 理 这 个 记录 的 连接 ID， 即 由 函数 CONNECTION ID() 
返回 的 ID。 如 果 当 前 记录 没有 被 任何 消费 者 处 理 ， 则 该 值 为 0。 


我 们 还 经 常 看 到 的 一 个 办 法 是 ， 如 下 面 所 示 的 一 次 处 理 10 条 记录 : 


BEGIN; 
SELECT id FROM unsent_emails 
WHERE owner = 0 AND status = ‘unsent' 
LIMIT 10 FOR UPDATE; 
-- result: 123, 456, 789 
UPDATE unsent_emails 
SET status = ‘claimed’, owner = CONNECTION ID() 
WHERE id IN(123, 456, 789); 
COMMIT; 


看 到 这 里 的 SELECT 查询 可 以 使 用 到 索引 的 两 个 列 ， 因 此 理论 上 查找 的 效率 应 该 更 快 。 问 
题 是 ， 在 上 面 两 个 查询 之 间 的 “ 间 阶 时 间 ”， 这 里 的 锁 会 让 所 有 其 他 同样 的 查询 全 部 都 
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被 阻塞 。 所 有 的 这 样 的 查询 将 使 用 相同 的 索引 ， 扫 摘 索 引 相 同 的 部 分 ， 所 以 很 可 能 会 被 
阻塞 。 


如 采 改 进 成 下 面 的 写法 ， 则 会 更 加 高 效 : 


SET AUTOCOMMIT = 1; 
COMMIT ; 
UPDATE unsent_emails 
SET status = ‘claimed’, owner = CONNECTION ID() 
WHERE owner = O AND status = ‘unsent’ 
LIMIT 10; 
SET AUTOCOMMIT = 0; 
SELECT id FROM unsent_emails l 
WHERE owner = CONNECTION ID() AND status = 'claimed'; 
-- result: 123, 456, 789 


根本 就 无 须 使 用 SELECT 查询 去 找到 哪些 记录 还 没有 被 处 理 。 客 户 端 的 协议 会 告诉 你 更 新 
了 几 条 记录 ， 所 以 可 以 知道 这 次 需要 处 理 多 少 条 记录 。 


所 有 的 SELECT FOR UPDATE 都 可 以 使 用 类 似 的 方法 改写 。 


最 后 还 需要 处 理 一 种 特殊 情况 : 那些 正在 被 进程 处 理 ， 而 进程 本 身 却 由 于 某 种 原因 退出 
的 情况 。 这 种 情况 处 理 起 来 很 简单 。 你 只 需要 定期 运行 UPDATE 语句 将 它 都 更 新 成 原始 
状态 就 可 以 了 ， 然 后 执行 SHOW PROCESSLIST， 获 取 当 前 正在 工作 的 线程 ID， 并 使 用 一 些 
WHERE 条 件 避 免 取 到 那些 刚 开始 处 理 的 进程 。 假 设 我 们 获取 的 线程 ID 有 (10, 20, 30), 
下 面 的 更 新 语句 会 将 处 理 时 间 超 过 10 分 钟 的 记录 状态 都 更 新 成 初始 状态 : 
UPDATE unsent emails | 
SET owner = 0, status = ‘unsent' 


WHERE owner NOT IN(0, 10, 20, 30) AND status = ‘claimed’ 
AND ts < CURRENT TIMESTAMP - INTERVAL 10 MINUTE; 


另外 ,注意 看 看 是 如 何 巧 妙 地 设计 索引 让 这 个 查询 更 加 高 效 的 。 这 也 是 上 一 章 和 本 章 知 

识 的 结合 。 因 为 我 们 将 范围 条 件 放 在 WHERE 条 件 的 末尾 ， 这 个 查询 恰好 能 够 使 用 索引 的 

全 部 列 。 其 他 的 查询 也 都 能 用 上 这 个 索引 ， 这 就 避免 了 再 新 增 一 个 额外 的 索引 来 满足 其 

他 的 查询 。 

这 里 我 们 将 总 结 一 下 这 个 案例 中 的 一 些 基础 原则 : 

。 尽量 少 做 事 ， 可 以 的 话 就 不 要 做 任何 事情 。 除 非 不 得 已 ， 否 则 不 要 使 用 轮 询 ， 因 为 
这 会 增加 负载 ， 而 且 还 会 带 来 很 多 低产 出 的 工作 。 

e 尽 可 能 快 地 完成 需要 做 的 事情 。 尽 量 使 用 UPDATE 代替 先 SELECT FOR UPDATE 再 
UPDATE 的 写法 ， 因 为 事务 提交 的 速度 越 快 ， 持 有 的 锁 时 间 就 越 短 ， 可 以 大 大 减少 竞 
和 争 和 加 速 串 行 执行 效率 。 将 已 经 处 理 完成 和 未 处 理 的 数据 分 开 ， 保 证 数据 集 足 够 小 。 
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。 这 个 案例 的 另 一 个 启发 是 ， 某 些 查询 是 无 法 优化 的 ， 考虑 使 用 不 同 的 查询 或 者 不 同 
的 策略 去 实现 相同 的 目的 。 通 常 对 于 SELECT FOR UPDATE 就 需要 这 样 处理 。 


有 时 ， 最 好 的 办 法 就 是 将 任务 队列 从 数据 库 中 迁移 出 来 。Redis 就 是 一 个 很 好 的 队列 容 
ao PLEH memcached 来 实现 。 男 一 个 选择 是 使 用 OM 存储 引擎 ， 但 我 们 没有 
在 生产 环境 使 用 过 这 个 存储 引擎 ， 所 以 这 里 也 没 办 法 提供 更 多 的 参考 。RabbitMQ 和 
Gearman ”也 可 以 实现 类 似 的 功能 。 


6.8.2 计算 两 点 之 间 的 距离 

地 理 信 息 计 算 再 次 出 现在 我 们 的 书 中 了 。 不 建议 用 户 使 用 MySQL 做 太 复 杂 的 空间 信息 
存储 一 一 PostgreSQL 在 这 方面 是 不 错 的 选择 一 一 我 们 这 里 将 介绍 一 些 常 用 的 计算 模式 。 
一 个 典型 的 例子 是 计算 以 某 个 点 为 中 心 ， 一 定 半径 内 的 所 有 点 。 


典型 的 实际 案例 可 能 是 查找 某 个 点 附 近 所 有 可 以 出 租 的 房子 ， 或 者 社交 网 站 中 “匹配 
附近 的 用 户 ， 等 等 。 假 设 我 们 有 如 下 表 : 


CREATE TABLE locations ( 
id INT NOT NULL PRIMARY KEY AUTO_INCREMENT, 
name VARCHAR(30), 
lat FLOAT NOT NULL, 
lon FLOAT NOT NULL 


); | 
INSERT INTO locations(name, lat, lon) 
VALUES( ‘Charlottesville, Virginia’, 38.03, -78.48), 
(‘Chicago, Illinois’, 41.85, -87.65), 
(Washington, DC’, 38.89, -77.04); 
这 里 经 度 和 纬度 的 单位 是 “ 度 ” ,通常 我 们 假设 地 球 是 圆 的 ,然后 使 用 两 点 所 在 最 大 圆 ( 半 
ER) 公式 来 计算 两 点 之 间 的 距离 。 现 在 有 坐标 lat4 和 lond, latB 和 1onB， 那 么 点 A 
和 点 B 的 距离 计算 公式 如 下 : 
ACOS( 
COS(latA) * COS(latB) * COS(lonA - lonB) 
+ SIN(latA) * SIN(latB) 
) 
计算 出 的 结果 是 一 个 弧度 ， 如 果 要 将 结果 的 单位 转换 成 英里 或 者 千 米 ， 则 需要 乘 以 地 球 
的 半径 ， 也 就 是 3 959 英里 或 者 6 371 千 米 。 假 设 我 们 需要 找 出 所 有 距离 Baron 所 居住 


的 地 方 Charlottesville 100 类 里 以 内 的 点 ， 那 么 我 们 需要 将 经 纬度 带 入 上 面 的 计算 公式 : 


注 32 : 参考 http://wwwrabbitmg.com 和 http://gearman.ore. 
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SELECT * FROM locations WHERE 3979 * ACOS( 
COS(RADIANS(lat)) * COS(RADIANS(38.03)) * COS(RADIANS(lon) - RADIANS(-78.48)) 
+ SIN(RADIANS(lat)) * SIN(RADIANS(38.03)) 


) <= 100; 

+----+--------------------------- +------- +-------- + 
| id | name | lat | lon | 
+----+--------------------------- +------- +-------- + 
| 1 | Charlottesville, Virginia | 38.03 | -78.48 | 
| 3 | Washington, DC | 38.89 | -77.04 | 
+----+--------------------------- +------- +-------- + 


这 类 查询 不 仅 无 法 使 用 索引 ， 而 且 还 会 非常 消耗 CPU 时 间 ， 给 服务 器 带 来 很 大 的 压力 ， 
而 且 我 们 还 得 反复 计算 这 个 。 那 要 怎样 优化 呢 ? 


这 个 设计 中 有 几 个 地 方 可 以 做 优化 。 第 一 ， 看 看 是 否 真 的 需要 这 么 精确 的 计算 。 其 实 这 
种 算法 已 经 有 很 多 不 精确 的 地 方 了 ， 如 下 所 示 : 


。 两 个 地 方 之 间 的 直线 距离 可 能 是 100 英里 ,但 实际 上 它们 之 间 的 行走 距离 很 可 能 不 
是 这 个 值 。 无 论 你 们 在 哪 两 个 地 方 ， 要 到 达 彼 此 位 置 的 行走 距离 多 半 都 不 是 直线 距 
离 , 路 上 可 能 需要 绕 很 多 的 弯 , 比如 说 如 果 有 一 条 河 , 需要 绕 远 走 到 一 个 有 桥 的 地 方 。 
所 以 ， 这 里 计算 的 绝对 距离 只 是 一 个 参考 值 。 

© 如果 我 们 根据 邮政 编码 来 确定 某 个 人 所 在 的 地 区 ， 再 根据 这 个 地 区 的 中 心 位 置 计算 
他 和 别人 的 距离 ， 那 么 这 本 身 就 是 一 个 估算 。Baron 住 在 Charlottesville， 不 过 不 是 
在 中 心地 区 ， 他 对 华盛顿 物理 位 置 的 中 心 也 不 感 兴 


所 以 ,通常 并 不 需要 精确 计算 ,很 多 应 用 如 果 这 样 计算 ， 多 半 是 认真 过 头 了 。 这 类 似 于 
有 效 数字 的 估算 : 计算 结果 的 精度 永远 都 不 会 比 测量 的 值 更 高 。( 换 名 话 说,“ 错 进 ， 错 
EA si) 


如 采 不 需要 太 高 的 精度 ， 那 么 我 们 认为 地 球 是 圆 的 应 该 也 没什么 问题 ， 其 实 准确 的 说 应 
该 是 椭圆 。 根 据 毕 达 哥 拉 斯 定理 ， 做 些 三 角 函 数 变 换 ， 我 们 可 以 把 上 面 的 公式 转换 得 更 
简单 ， 只 需要 做 些 求 和 、 乘 积 以 及 平方 根 运 算 ， 就 可 以 得 出 一 个 点 是 否 在 另 一 个 点 多 少 
英里 之 内 。™” 


等 等 ， 为 什么 就 到 这 为 止 ? 我 们 是 否 真 需要 计算 一 个 圆周 昵 ? 为 什么 不 直接 使 用 一 个 正 
方形 代替 ? KA 200 英里 的 正方 形 ， 一 个 顶点 到 中 心 的 距离 大 概 是 141 英里 ， 这 和 实 
际 计算 的 100 英 里 相差 得 并 不 是 那么 远 。 那 我 们 根据 正方 形 公式 来 计算 弧度 为 0.0253(100 
RE) 的 中 心 到 边 长 的 距离 : 


注 33 : 要 想 有 更 多 的 优化 ， 你 可 以 将 三 角 函 数 的 计算 放 到 应 用 中 ， 而 不 要 在 数据 库 中 计算 。 三 角 函 数 是 
非常 消耗 CPU 的 操作 。 如 果 将 坐标 部 转换 成 缚 度 存放 ， 则 对 数据 库 来 说 就 简化 了 很 多 。 为 了 保证 
我 们 的 案例 简单 ， 不 要 引入 太 多 别 的 因子 ， 所 以 这 里 我 们 将 不 再 做 更 多 的 优化 了 。 
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SELECT * FROM locations 
WHERE lat BETWEEN 38.03 - DEGREES(0.0253) AND 38.03 + DEGREES(0.0253) 
AND lon BETWEEN -78.48 - DEGREES(0.0253) AND -78.48 + DEGREES(0.0253); 
现在 我 们 看 看 如 何 使 用 索引 来 优化 这 个 查询 。 简 单 地 ， 我 们 可 以 增加 索引 (lat,lon) 或 者 
(lon,lat)。 不 过 这 样 做 效果 并 不 会 很 好 。 正 如 我 们 所 知 ，MySQL 5.5 和 之 前 的 版 本 ， 如 果 
第 一 列 是 范围 查询 的 话 ， 就 无 法 使 用 索引 后 面 的 列 了 。 因 为 两 个 列 都 是 范围 的 ， 所 以 这 
里 只 能 使 用 索引 的 一 个 列 (BETWEEN 等 效 于 一 个 大 于 和 一 个 小 于 )。 


我 们 再 次 想起 了 通常 使 用 的 IN( ) 优化 。 我 们 先 新 增 两 个 列 ， 用 来 存储 坐标 的 近似 值 
FLOOR()， 然 后 在 查询 中 使 用 IN( ) 将 所 有 点 的 整数 值 都 放 到 列表 中 。 下 面 是 我 们 需要 新 
增 的 列 和 索引 : 
mysql> ALTER TABLE locations 
-> ADD lat floor INT NOT NULL DEFAULT O, 
-> ADD lon floor INT NOT NULL DEFAULT O, 
-> ADD KEY(lat_floor, lon floor); 


mysql> UPDATE locations 
-> SET lat_floor = FLOOR(lat), lon floor = FLOOR(lon); 


现在 我 们 可 以 根据 坐标 的 一 定 范围 的 近似 值 来 搜索 了 ， 这 个 近似 值 包括 地 板 值 和 天 花 板 
值 ， 地 理 上 分 别 对 应 的 是 南北 。 下 面 的 查询 为 我 们 只 展示 了 如 何 查 某 个 范围 的 所 有 点 ; 
数值 需要 在 应 用 程序 中 计算 而 不 是 MySQL 中 : 


mysql> SELECT FLOOR( 38.03 - DEGREES(0.0253)) AS lat 1b, 


-> CEILING( 38.03 + DEGREES(0.0253)) AS lat ub, 
-> FLOOR(-78.48 - DEGREES(0.0253)) AS lon 1b, 
-> CEILING(-78.48 + DEGREES(0.0253)) AS lon_ub; 

+-------- +--------~ +-------- +-------- + 

| lat lb | lat_ub | lon lb | lon ub | 

+-~------ +-------- +-------- +-------- + 

| 36 | 40 | -80 | -77| 

二 -= 一 +-------- +-------- +-------- + 


现在 我 们 就 可 以 生成 IN() 列表 中 的 整数 了 ， 也 就 是 前 面 计 算 的 地 板 和 天 花 板 数值 之 间 的 
数字 。 下 面 是 加 上 WHERE 条 件 的 完整 查询 : 
SELECT * FROM locations 
WHERE lat BETWEEN 38.03 - DEGREES(0.0253) AND 38.03 + DEGREES(0.0253) 
AND lon BETWEEN -78.48 - DEGREES(0.0253) AND -78.48 + DEGREES(0.0253) 
AND lat_floor IN(36,37,38,39,40) AND lon floor IN(-80,-79,-78,-77); 
( FAVES LE RA ERR A EE ne, BTA BA SSE ER EIR EET 
形 之 外 的 点 。 这 和 前 面 使 用 CRC32 做 哈 希 索引 类 似 : 先 建 一 个 索引 帮 我 们 过 滤 出 近似 值 ， 
再 使 用 精确 条 件 匹 配 所 有 的 记录 并 移 除 不 满足 条 件 的 记录 。 


事实 上 ， 到 这 时 我 们 就 无 须根 据 正方 形 的 近似 来 过 滤 数 据 了 ， 我 们 可 以 使 用 最 大 圆 公 式 
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或 者 毕 达 哥 拉 斯 定理 来 计算 : 


SELECT * FROM locations 
WHERE lat floor IN(36,37,38,39,40) AND lon floor IN(-80,-79,-78,-77) 
AND 3979 * ACOS( 
COS(RADIANS(lat)) * COS(RADIANS(38.03)) * COS(RADIANS(lon) - RADIANS(-78.48)) 
+ SIN(RADIANS(lat)) * SIN(RADIANS(38.03)) 
) <= 100; 


这 时 计算 精度 再 次 回 到 前 面 一 一 使 用 一 个 精确 的 圆周 
要 能 够 高 效 地 过 让 掉 大 部 分 的 点 ， 例 如 使 用 近似 整数 和 索引 ， 之 后 再 做 精确 数学 计算 的 
代价 并 不 大 。 只 是 不 要 直接 使 用 大 圆周 的 算法 ， 否 则 速度 会 很 慢 。 





使 用 MyISAM 的 GIS 函数 ， 并 使 用 上 面 的 技巧 来 计算 ， 那么 你 需要 记 住 : 这 样 做 效 
s%， 果 并 不 会 很 好 ，MyISAM 本 身 也 并 不 适合 大 数据 量 、 高 并 发 的 应 用 ， 另 外 MyISAM 
本 身 还 有 一 些 弱 点 ， 如 数据 文件 崩溃 、 表 级 锁 等 。 


a 

wi] Sphinx 有 很 多 内 置 的 地 理 信息 搜索 功能 ， 比 MySQL 实现 要 好 很 多 。 如 果 正 在 考虑 
ae | 

E 


回顾 一 下 上 面 的 案例 ， 我 们 采用 了 下 面 这 些 常 用 的 优化 策略 : 


。 尽量 少 做 事 ， 可 能 的 话 尽量 不 做 事 。 这 个 案例 中 就 不 要 对 所 有 的 点 计算 大 圆周 公式 ， 
先 使 用 简单 的 方案 过 滤 大 多 数 数据 ， 然 后 再 到 过 滤 出 来 的 更 小 的 集合 上 使 用 复杂 的 
公式 运算 。 

。 ”快速 地 完成 事情 。 确 保 在 你 的 设计 中 尽 可 能 地 让 查询 都 用 上 合适 的 索引 ， 使 用 近似 
计算 (例如 本 案例 中 ， 认 为 地 球 是 平 的 ， 使 用 一 个 正方 形 来 近似 圆周 ) 来 避免 复杂 
的 计算 。 | 

。 需要 的 时 候 ， 尽 可 能 让 应 用 程序 完成 一 些 计 算 。 例 如 本 案例 中 ， 在 应 用 程序 中 计算 
所 有 的 三 角 函 数 。 


6.8.3 使 用 用 户 目 定义 函数 

当 SQL 语句 已 经 无 法 高 效 地 完成 某 些 任务 的 时 候 ， 这 里 我 们 将 介绍 最 后 一 个 高 级 的 优化 
技巧 。 当 你 需要 更 快 的 速度 ， 那 么 C 和 C++ 是 很 好 的 选择 。 当 然 ， 你 需要 一 定 的 C 或 
C++ 编程 技巧 ,否则 你 写 的 程序 很 可 能 会 让 服务 器 崩溃 。 这 和 “能力 越 强 ,责任 越 大 ?类似 。 


我 们 将 在 下 一 章 为 你 展示 如 何 编写 一 个 用 户 自 定义 函数 (UDFs) ， 不 过 这 一 章 就 将 通过 
一 个 案例 看 看 如 何 用 好 一 个 用 户 自 定义 函数 。 有 一 个 客户 ,在 项 目 中 需要 如 下 的 功能 :“ 我 
们 需要 根据 两 个 随机 的 64 位 数字 计算 它们 的 XOR 值 ， 来 看 两 个 数值 是 否 匹配 。 大 约 有 
3 500 万 条 的 记录 需要 在 秒 级 别 完成 。 经 过 简单 的 计算 就 知道 ， 当 前 的 硬件 条 件 下 ， 不 


注 34 : 再 一 次 ， 需 要 使 用 应 用 程序 中 的 代码 来 计算 这 样 的 表达 式 C0S (RADIANS (38.03))。 
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不 过 ， 现 在 的 做 法 更 快 生 4。 只 


可 能 在 MySQL 中 完成 。 那 如 何 解决 这 个 问题 呢 ? 


问题 的 答案 是 使 用 Yves Trudeau 编写 的 一 个 计算 程序 ， 这 个 程序 使 用 SSE4.2 指令 集 ， 
以 一 个 后 台 程 序 的 方式 运行 在 通用 服务 器 上 ， 然 后 我 们 编写 一 个 用 户 自 定义 函数 ， 通 过 
简单 的 网 络 通信 协议 和 前 面 的 程序 进行 交互 。 


Yves 的 测试 表明 ， 分 布 式 运行 上 面 的 程序 ， 可 以 达到 在 130 毫秒 内 完成 4 百 万 次 匹配 计 
算 。 通 过 这 样 的 方式 ， 可 以 将 密集 型 的 计算 放 到 一 些 通 用 的 服务 器 上 ， 同 时 可 以 对 外 界 
完全 透明 ， 看 起 来 是 MySQL 完成 了 全 部 的 工作 。 正 如 他 们 在 Twitter 上 说 的 :# 太 好 了 ! 
这 是 一 个 典型 的 业务 优化 案例 ， 而 不 仅仅 是 优化 了 一 个 简单 的 技术 问题 。 


6.9 BZ 


如 果 把 创建 高 性 能 应 用 程序 比 作 是 一 个 环 环 相 扣 的 “难题 ">， 除 了 前 面 介绍 的 schema.、 
索引 和 查询 语句 设计 之 外 ， 查 询 优化 应 该 是 解 开 “ 难 题 ” 的 最 后 一 步 了 。 要 想 写 一 个 好 
的 查询 ， 你 必须 要 理解 schema 设计、 索引 设计 等 ， 反 之 亦 然 。 


理解 查询 是 如 何 被 执行 的 以 及 时 间 都 消耗 在 哪些 地 方 ， 这 依然 是 前 面 我 们 介绍 的 响应 时 
间 的 一 部 分 。 再 加 上 一 些 诸如 解析 和 优化 过 程 的 知识 ， 就 可 以 更 进一步 地 理解 上 一 章 讨 
WÉI MySQL 如 何 访问 表 和 索引 的 内 容 了 。 这 也 从 另 一 个 维度 帮助 读者 理解 MySQL 在 
访问 表 和 索引 时 查询 和 索引 的 关系 。 

优化 通常 都 需要 三 管 齐 下 : 不 做 、 少 做 、 快 速 地 做 。 我 们 希望 这 里 的 案例 能 够 帮助 你 将 
理论 和 实践 联系 起 来 。 | 

除了 这 些 基 础 的 手段 ， 包 括 查询 、 表 结构 、 索 引 等 ，MySQL 还 有 一 些 高 级 的 特性 可 以 
帮助 你 优化 应 用 ， 例 如 分 区 ， 分 区 和 索引 有 些 类 似 但 是 原理 不 同 。MySQL 还 文 持 查询 
缓存 ， 它 可 以 帮 你 缓存 查询 结果 ， 当 完全 相同 的 查询 再 次 执行 时 , 直接 使 用 缓存 结果 (E 
想 一 下 ,“ 不 做 ”)。 我 们 将 在 下 一 章 中 介绍 这 些 特 性 。 
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第 7 章 am 


MySQL 高 级 特性 


MySQL 从 5.0 和 5.1 版 本 开始 引入 了 很 多 高 级 特性 ， 例 如 分 区 、 触 发 器 等 ， 这 对 有 其 他 
关系 型 数据 库 使 用 背景 的 用 户 来 说 可 能 并 不 陌生 。 这 些 新 特性 吸引 了 很 多 用 户 开 始 使 用 
MySQL。 不 过 ， 这 些 特性 的 性 能 到 底 如 何 ， 还 需要 用 户 真 正 使 用 过 才能 知道 。 本 章 我 们 
将 为 大 家 介绍 ， 在 真实 的 世界 中 ， 这 些 特性 表现 如 何 ， 而 不 是 只 简单 地 介绍 参考 手册 或 
者 宣传 材料 上 的 数据 。 


7.1 分 区 表 


对 用 户 来 说 ， 分 区 表 是 一 个 独立 的 逻辑 表 ， 但 是 底层 由 多 个 物理 子 表 组 成 。 实 现 分 区 的 
代码 实际 上 是 对 一 组 底层 表 的 句柄 对 象 (Handler Object) 的 封装 。 对 分 区 表 的 请 求 ， 都 
会 通过 句柄 对 象 转化 成 对 存储 引擎 的 接口 调用 。 所 以 分 区 对 于 SQL 层 来 说 是 一 个 完全 封 
效 底 层 实 现 的 竺 盒子 ， 对 应 用 是 透明 的 ,但 是 从 底层 的 文件 系统 来 看 就 很 容易 发 现 ， 每 
一 个 分 区 表 都 有 一 个 使 用 # 分 隔 命名 的 表 文 件 。 


MySQL 实现 分 区 表 的 方式 一 一 对 底层 表 的 封装 一 一 意味 着 索引 也 是 按照 分 区 的 子 表 定 
义 的 ， 而 没有 全 局 索引 。 这 和 Oracle 不 同 ， 在 Oracle 中 可 以 更 加 灵活 地 定义 索引 和 表 是 
人 否 进行 分 区 。 


MySQL 在 创建 表 时 使 用 PARTITION BY 子 句 定义 每 个 分 区 存放 的 数据 。 在 执行 查询 的 时 
候 ， 优 化 器 会 根据 分 区 定义 过 滤 那 些 没 有 我 们 需要 数据 的 分 区 ， 这 样 查询 就 无 须 扫描 所 
有 分 区 一 一 只 需要 查找 包含 需要 数据 的 分 区 就 可 以 了 。 


分 区 的 一 个 主要 目的 是 将 数据 按照 一 个 较 粗 的 粒度 分 在 不 同 的 表 中 。 这 样 做 可 以 将 相关 
的 数据 存放 在 一 起 ， 另 外 ， 如 果 想 一 次 批量 删除 整个 分 区 的 数据 也 会 变 得 很 方便 。 


在 下 面 的 场景 中 ， 分 区 可 以 起 到 非常 大 的 作用 : 
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。” 表 非常 大 以 至 于 无 法 全 部 都 放 在 内 存 中 ， 或 者 只 在 表 的 最 后 部 分 有 热点 数据 ， 其 他 
均 是 历史 数据 。 

。 分 区 表 的 数据 更 容易 维护 ,例如 , 想 批量 删除 大 量 数据 可 以 使 用 清除 整个 分 区 的 方式 。 
另外 ， 还 可 以 对 一 个 独立 分 区 进行 优化 、 检 查 、 修 复 等 操作 。 

。 分 区 表 的 数据 可 以 分 布 在 不 同 的 物理 设备 上 ， 从 而 高 效 地 利用 多 个 硬件 设备 。 

e 可 以 使 用 分 区 表 来 避免 某 些 特殊 的 瓶颈 ， 例 如 InnoDB 的 单个 索引 的 互 斥 访问 、ext3 
文件 系统 的 inode 锁 竞争 等 。 

。 ”如 果 需 要 ,还 可 以 备份 和 恢复 独立 的 分 区 ,这 在 非常 大 的 数据 集 的 场景 下 效果 非常 好 。 


MySQL 的 分 区 实现 非常 复杂 ， 我 们 不 打算 介绍 实现 的 全 部 细 市 。 这 里 我 们 将 专注 在 分 
区 性 能 方面 ， 所 以 如 果 想 了 解 更 多 的 关于 分 区 的 基础 知识 ， 我 们 建议 阅读 MySQL E 
方 手 册 中 的 “分 区 ”一 节 ， 其 中 介绍 了 很 多 分 区 相关 的 基础 知识 。 另 外 ， 还 可 以 阅读 
CREATE TABLE, SHOW CREATE TABLE, ALTER TABLE 和 INFORMATION SCHEMA.PARTITIONS, 
EXPLAIN 关于 分 区 部 分 的 介绍 。 分 区 特性 使 得 CREATE TABLE 和 ALTER TABLE 命令 变 得 更 
加 复杂 了 。 | 


分 区 表 本 身 也 有 一 些 限制 ， 下 面 是 其 中 比较 重要 的 几 点 : 


。 一 个 表 最 多 只 能 有 1024 个 分 区 。 

© 在 MySQL 5.1 中 ,分 区 表达 式 必须 是 整数 ,或 者 是 返回 整数 的 表达 式 。 在 MySQL 5.5 
中 ， 某 些 场景 中 可 以 直接 使 用 列 来 进行 分 区 。 | 

e。 如果 分 区 字段 中 有 主键 或 者 唯一 索引 的 列 ， 那 么 所 有 主键 列 和 唯一 索引 列 都 必须 包 
含 进 来 。 

© 分 区 表 中 无 法 使 用 外 键 约 束 。 


7.1.1 分 区 表 的 原理 

如 前 所 述 ， 分 区 表 由 多 个 相关 的 底层 表 实 现 ， 这 些 底 层 表 也 是 由 句柄 对 象 (Handler 
object) 表示 ， 所 以 我 们 也 可 以 直接 访问 各 个 分 区 。 存 储 引擎 管理 分 区 的 各 个 底层 表 和 
管理 普通 表 一 样 (所 有 的 底层 表 都 必须 使 用 相同 的 存储 引擎 ) ， 分 区 表 的 索引 只 是 在 各 
个 底层 表 上 各 自 加 上 一 个 完全 相同 的 索引 。 从 存储 引擎 的 角度 来 看 ， 底 层 表 和 一 个 普通 
表 没 有 任何 不 同 ， 存 储 引擎 也 无 须知 道 这 是 一 个 普通 表 还 是 一 个 分 区 表 的 一 部 分 。 


分 区 表 上 的 操作 按照 下 面 的 操作 逻辑 进行 : 


SELECT 查询 
当 查 询 一 个 分 区 表 的 时 候 ， 分 区 层 先 打开 并 锁 住 所 有 的 底层 表 ， 优 化 器 先 判断 是 否 
可 以 过 滤 部 分 分 区 ， 然 后 再 调用 对 应 的 存储 引擎 接 口 访问 各 个 分 区 的 数据 。 
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INSERT 操作 
当 写 入 一 条 记录 时 ， 分 区 层 先 打开 并 锁 住 所 有 的 底层 表 ， 然 后 确定 哪个 分 区 接收 这 
条 记录 ， 再 将 记录 写 入 对 应 底层 表 。 

DELETE 操作 | 
当 删 除 一 条 记录 时 ， 分 区 层 先 打 片 并 锁 住 所 有 的 底层 表 ， 然 后 确定 数据 对 应 的 分 区 ， 
最 后 对 相应 底层 表 进 行 删 除 操作 。 

UPDATE 操作 
当 更 新 一 条 记录 时 ， 分 区 层 先 打开 并 锁 住 所 有 的 底层 表 ，MySQL 先 确 定 需要 更 新 
的 记录 在 哪个 分 区 ， 然 后 取出 数据 并 更 新 ， 再 判断 更 新 后 的 数据 应 该 放 在 哪个 分 区 ， 
最 后 对 底层 表 进 行 写 入 操 作 ， 并 对 原 数 据 所 在 的 底层 表 进 行 删除 操作 。 


有 些 操作 是 支持 过 滤 的 。 例 如 ， 当 删除 一 条 记录 时 ，MySQL 需要 先 找到 这 条 记录 ， 如 
果 WHERE 条 件 恰 好 和 分 区 表达 式 匹 配 ， 就 可 以 将 所 有 不 包含 这 条 记录 的 分 区 都 过 滤 掉 。 
这 对 UPDATE 语句 同样 有 效 。 如 果 是 INSERT 操作 ， 则 本 身 就 是 只 命中 一 个 分 区 ， 其 他 分 
区 都 会 被 过 滤 掉 。MySQL 先 确 定 这 条 记录 属于 哪个 分 区 ， 再 将 记录 写 入 对 应 的 底层 分 
区 表 ， 无 须 对 任何 其 他 分 区 进行 操作 。 


虽然 每 个 操作 都 会 “ 先 打开 并 锁 住所 有 的 底层 表 ”， 但 这 并 不 是 说 分 区 表 在 处 理 过 程 中 
是 锁 住 全 表 的 。 如 果 存 储 引擎 能 够 自己 实现 行 级 锁 ， 例 如 InnoDB， 则 会 在 分 区 层 释 放 
对 应 表 锁 。 这 个 加 锁 和 解锁 过 程 与 普通 InnoDB 上 的 查询 类 似 。 


后 面 我 们 会 通过 一 些 例子 来 看 看 ， 当 访问 一 个 分 区 表 的 时 候 ， 打 开 和 锁 住 所 有 底层 表 的 
代价 及 其 带 来 的 后 果 。 


7.1.2 分 区 表 的 类 型 
MySQL 支持 多 种 分 区 表 。 我 们 看 到 最 多 的 是 根据 范围 进行 分 区 ， 每 个 分 区 存储 落 在 某 
个 犯 围 的 记录 ， 分 区 表达 式 可 以 是 列 ， 也 可 以 是 包含 列 的 表达 式 。 例 如 ， 下 表 就 可 以 将 
每 一 年 的 销售 额 存放 在 不 同 的 分 区 里 : 
CREATE TABLE sales ( 
order date DATETIME NOT NULL, 
-- Other columns omitted 
) ENGINE=InnoDB PARTITION BY RANGE(YEAR(order date)) ( 
PARTITION p 2010 VALUES LESS THAN (2010), 
PARTITION p 2011 VALUES LESS THAN (2011), 


PARTITION p 2012 VALUES LESS THAN (2012), 
PARTITION p_catchall VALUES LESS THAN MAXVALUE ); 


PARTITION 分 区 子 句 中 可 以 使 用 各 种 函数 。 但 有 一 个 要 求 ， 表 达 式 返回 的 值 要 是 一 个 确 
定 的 整数 , 且 不 能 是 一 个 常数 。 这 里 我 们 使 用 函数 YEAR() ， 也 可 以 使 用 任何 其 他 的 函数 ， 
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如 T0_DAYS()。 根 据 时 间 间 隔 进行 分 区 ， 是 一 种 很 常见 的 分 区 方式 ， 后 面 我 们 还 会 再 回 
过 头 来 看 这 个 例子 ， 看 看 如 何 优化 这 个 例子 来 避免 一 些 问 题 。 


MySQL 还 支持 键 值 、 哈 希 和 列表 分 区 ， 这 其 中 有 些 还 支持 子 分 区 ， 不 过 我 们 在 生产 环 
境 中 很 少见 到 。 在 MySQL 5.5 中 ， 还 可 以 使 用 RANGE COLUMNS 类 型 的 分 区 ， 这 样 即使 是 
基于 时 间 的 分 区 也 无 须 再 将 其 转化 成 一 个 整数 ， 后 面 将 详细 介绍 。 


在 我 们 看 过 的 一 个 子 分 区 的 案例 中 ， 对 一 个 类 似 于 前 面 我 们 设计 的 按时 间 分 区 的 InnoDB 
表 ， 系 统 通过 子 分 区 可 降低 索引 的 互 斥 访问 的 竞争 。 最 近 一 年 的 分 区 的 数据 会 被 非常 频 
繁 地 访问 ， 这 会 导致 大 量 的 互 斥 量 的 竞争 。 使 用 哈 希 子 分 区 可 以 将 数据 切 成 多 个 小 片 ， 
大 大 降低 互 斥 量 的 竞争 问题 。 


我 们 还 看 到 的 一 些 其 他 的 分 区 技术 包括 : 


。 ”根据 键 值 进行 分 区 ， 来 减少 InnoDB 的 互 斥 量 竞争 。 

。 ”使 用 数学 模 函 数 来 进行 分 区 ， 然 后 将 数据 轮 询 放 入 不 同 的 分 区 。 例 如 ， 可 以 对 日 期 
做 模 7 的 运算 ， 或 者 更 简单 地 使 用 返回 周 儿 的 函数 ， 如 果 只 想 保留 最 近 几 天 的 数据 ， 
这 样 分 区 很 方便 。 

。 ”假设 表 有 一 个 自 增 的 主键 列 id， 和 希望 根据 时 间 将 最 近 的 热点 数据 集中 存放 。 那 么 必 
须 将 时 间 改 包含 在 主键 当中 才 行 ， 而 这 和 主键 本 身 的 意义 相 了 矛盾 。 这 种 情况 下 也 可 
以 使 用 这 样 的 分 区 表达 式 来 实现 相同 的 目的 : HASH(id DIV 1000000)， 这 将 为 100 
万 数据 建立 一 个 分 区 。 这 样 一 方面 实现 了 当初 的 分 区 目的 ， 另 一 方面 比 起 使 用 时 间 
范围 分 区 还 避免 了 一 个 问题 ， 就 是 当 超过 一 定 阐 值 时 ， 如 果 使 用 时 间 范 围 分 区 就 必 
须 新 增 分 区 。 


7.1.3 如 何 使 用 分 区 表 

假设 我 们 希望 从 一 个 非常 大 的 表 中 查询 出 一 段 时 间 的 记录 ， 而 这 个 表 中 包含 了 很 多 年 的 
历史 数据 ， 数 据 是 按照 时 间 排 序 的 ， 例 如 ， 和 希望 查询 最 近 几 个 月 的 数据 ， 这 大 约 有 10 亿 
条 记录 。 可 能 过 些 年 本 书 会 过 时 ， 不 过 我 们 还 是 假设 使 用 的 是 2012 年 的 硬件 设备 ， 而 
原 表 中 有 10TB 的 数据 ， 这 个 数据 量 远 大 于 内 存 ， 并 且 使 用 的 是 传统 硬盘 ， 不 是 闪存 (多 
数 SSD 也 没有 这 么 大 的 空间 ) 。 你 打算 如 何 查询 这 个 表 ? 如何 才能 更 高 效 ? 


首先 很 肯定 : 因为 数据 量 巨大 ， 肯 定 不 能 在 每 次 查询 的 时 候 都 扫描 全 表 。 考 虑 到 索引 在 
空间 和 维护 上 的 消耗 ， 也 不 希望 使 用 索引 。 即 使 真 的 使 用 索引 ， 你 会 发 现 数据 并 不 是 按 
照 想 要 的 方式 聚集 的 ， 而 且 会 有 大 量 的 碎片 产生 ， 最 终 会 导致 一 个 查询 产生 成 千 上 万 的 
随机 IO， 应 用 程序 也 随 之 僵 死 。 情 况 好 一 点 的 时 候 ， 也 许可 以 通过 一 两 个 索引 解决 一 
些 回 题 。 不 过 多 数 情况 下 ， 索 引 不 会 有 任何 作用 。 这 时 候 只 有 两 条 路 可 选 : 让 所 有 的 查 
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询 都 只 在 数据 表 上 做 顺序 扫描 ， 或 者 将 数据 表 和 索引 全 部 都 缓存 在 内 存 里 。 


这 里 需要 再 陈述 一 过 : 在 数据 量 超大 的 时 候 ，B-Tree 索引 就 无 法 起 作用 了 。 除 非 是 索 
引 和 覆盖 查询 ， 否 则 数据 库 服务 器 需要 根据 索引 扫描 的 结果 回 表 ， 查 询 所 有 符合 条 件 的 
记录 ， 如 果 数 据 量 巨大 ， 这 将 产生 大 量 随机 I/O， 随 之 ， 数 据 库 的 响应 时 间 将 大 到 不 可 
接受 的 程度 。 另 外 ， 索 引 维 护 (磁盘 空间 、1/0O 操作 ) 的 代价 也 非常 高 。 有 些 系 统 ， 如 
Infobright， 意 识 到 这 一 点 ， 于 是 就 完全 放弃 使 用 B-Tree 索引 ， 而 选择 了 一 些 更 粗 粒 度 
的 但 消耗 更 少 的 方式 检索 数据 ， 例 如 在 大 量 数据 上 只 索引 对 应 的 一 小 块 元 数据 。 


这 正 是 分 区 要 做 的 事情 。 理 解 分 区 时 还 可 以 将 其 当 作 索 引 的 最 初 形 态 ， 以 代价 非常 小 的 
方式 定位 到 需要 的 数据 在 哪 一 片 “区 域 "。 在 这 片 “区 域 ” 中 ,你 可 以 做 顺序 扫描 ， 可 以 
建 索 引 ， 还 可 以 将 数据 都 缓存 到 内 存 ， 等 等 。 因 为 分 区 无 须 额外 的 数据 结构 记录 每 个 分 
区 有 哪些 数据 一 一 分 区 不 需要 精确 定位 每 条 数据 的 位 置 ， 也 就 无 须 额外 的 数据 结构 
所 以 其 代价 非常 低 。 只 需要 一 个 简单 的 表达 式 就 可 以 表达 每 个 分 区 存放 的 是 什么 数据 。 


为 了 保证 大 数据 量 的 可 扩展 性 ， 一 般 有 下 面 两 个 策略 : 





全 量 扫描 数据 ， 不 要 任何 索引 。 
可 以 使 用 简单 的 分 区 方式 存放 表 ， 不 要 任何 索引 ， 根 据 分 区 的 规则 大 致 定位 需要 的 
数据 位 置 。 只 要 能 够 使 用 WHERE 条 件 ， 将 需要 的 数据 限制 在 少数 分 区 中 ， 则 效率 是 
很 高 的 。 当 然 ， 也 需要 做 一 些 简单 的 运算 保证 查询 的 响应 时 间 能 够 满足 需求 。 使 用 
该 策略 假设 不 用 将 数据 完全 放 入 到 内 存 中 ， 同 时 还 假设 需要 的 数据 全 都 在 磁盘 上 ， 
因为 内 存 相 对 很 小 ， 数 据 很 快 会 被 挤 出 内 存 ， 所 以 缓存 起 不 了 任何 作用 。 这 个 策略 
适用 于 以 正常 的 方式 访问 大 量 数据 的 时 候 。 警 告 ; 后 面 我 们 会 详细 解释 ， 必 须 将 查 
询 需 要 扫描 的 分 区 个 数 限 制 在 一 个 很 小 的 数量 。 

索引 数据 ， 并 分 离 热点 。 
如 果 数 据 有 明显 的 “热点 ”, 而 且 除 了 这 部 分 数据 ， 其 他 数据 很 少 被 访问 到 ， 那 么 可 
以 将 这 部 分 热点 数据 单独 放 在 一 个 分 区 中 ， 让 这 个 分 区 的 数据 能 够 有 机 会 都 缓存 在 
内 存 中 。 这 样 查询 就 可 以 只 访问 一 个 很 小 的 分 区 表 ， 能 够 使 用 索引 ， 也 能 够 有 效 地 
使 用 缓存 。 


仅仅 知道 这 些 还 不 够 ，MySQL 的 分 区 表 实 现 还 有 很 多 陷阱 。 下 面 我 们 看 看 都 有 哪些 ， 
以 及 如 何 避 免 。 


7.1.4 什么 情况 下 会 出 问题 
上 面 我 们 介绍 的 两 个 分 区 策略 都 基于 两 个 非常 重要 的 假设 ; 查询 都 能 够 过 滤 (prunning) 
掉 很 多 额外 的 分 区 、 分 区 本 身 并 不 会 带 来 很 多 额外 的 代价 。 而 事实 证 明 ， 这 两 个 假设 在 
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茶 些 场景 下 会 有 问题 。 下 面 介绍 一 些 可 能 会 遇 到 的 问题 。 
NULL 值 会 使 分 区 过 滤 无 效 


关于 分 区 表 一 个 容易 让 人 误解 的 地 方 就 是 分 区 的 表达 式 的 值 可 以 是 NULL : 第 一 个 
分 区 是 一 个 特殊 分 区 。 假 设 按 照 PARTITION BY RANGE YEAR(order date) 分 区 ， 那 
么 所 有 order_date 为 NULL 或 者 是 一 个 非法 值 的 时 候 ， 记 录 都 会 被 存放 到 第 一 个 
分 区 生 !。 现 在 假设 有 下 面 的 查询 : WHERE order date BETWEEN '2012-01-01' AND 
'2012-01-31'。 实 际 上 ，MySQL 会 检查 两 个 分 区 ， 而 不 是 之 前 猜想 的 一 个 : ES 
查 2012 年 这 个 分 区 ， 同 时 它 还 会 检查 这 个 表 的 第 一 个 分 区 。 检 查 第 一 个 分 区 是 因为 
YEAR( ) 函数 在 接收 非法 值 的 时 候 可 能 会 返回 NULL 值 ， 那 么 这 个 范围 的 值 可 能 会 返 
E NULL 而 被 存放 到 第 一 个 分 区 了 。 这 一 点 对 于 其 他 很 多 函数 ， 例 如 TO_DAYS() 也 一 
样 。 注 2 

如 果 第 一 个 分 区 非常 大 ， 特 别 是 当 使 用 “全 量 扫 描 数 据 ， 不 要 任何 索引 ”的 策略 时 ， 
代价 会 非常 大 。 而 且 扫 描 两 个 分 区 来 查找 列 也 不 是 我 们 使 用 分 区 表 的 初衷 。 为 了 避 
免 这 种 情况 ， 可 以 创建 一 个 “无 用 ”的 第 一 个 分 区 ， 例 如 ， 上 面 的 例子 中 可 以 使 用 
PARTITION p nulls VALUES LESS THAN (0) 来 创建 第 一 个 分 区 。 如 果 插 入 表 中 的 数 
据 都 是 有 效 的 ， 那 么 第 一 个 分 区 就 是 空 的 ， 这 样 即使 需要 检测 第 一 个 分 区 ， 代 价 也 
会 非常 小 。 

在 MySQL 5.5 中 就 不 需要 这 个 优化 技巧 了 ， 因 为 可 以 直接 使 用 列 本 身 而 不 是 基于 列 
的 函数 进行 分 区 : PARTITION BY RANGE COLUMNS(order date)。 所 以 这 个 案例 最 好 
的 解决 方法 是 能 够 直接 使 用 MySQL 5.5 的 这 个 语法 。 


分 区 列 和 索引 列 不 匹配 


注 1: 


2: 
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如 采 定 义 的 索引 列 和 分 区 列 不 匹配 ， 会 导致 查询 无 法 进行 分 区 过 滤 。 假 设 在 列 a 上 
定义 了 索引 ， 而 在 列 b 上 进行 分 区 。 因 为 每 个 分 区 都 有 其 独立 的 索引 ， 所 以 扫描 列 
b 上 的 索引 就 需要 扫描 每 一 个 分 区 内 对 应 的 索引 。 如 果 每 个 分 区 内 对 应 索引 的 非 叶 
子 市 尽 都 在 内 存 中 ， 那 么 扫描 的 速度 还 可 以 接受 ,但 如 果 能 跳 过 某 些 分 区 索引 当然 
会 更 好 。 要 避免 这 个 问题 ， 应 该 避免 建立 和 分 区 列 不 匹配 的 索引 ， 除 非 查询 中 还 同 
时 包含 了 可 以 过 滤 分 区 的 条 件 。 

听 起 来 避免 这 个 问题 很 简单 ， 不 过 有 时 候 也 会 遇 到 一 些 意 想 不 到 的 问题 。 例 如 ， 在 
一 个 关联 查询 中 ,分 区 表 在 关联 顺序 中 是 第 二 个 表 ， 并 且 关 联 使 用 的 索引 和 分 区 条 
件 并 不 匹配 。 那 么 关联 时 针对 第 一 个 表 符 合 条 件 的 每 一 行 ， 都 需要 访问 并 搜索 第 二 
个 表 的 所 有 分 区 。 


因为 可 以 在 这 里 存放 一 个 非法 的 日 期 ， 所 以 甚至 当 order date 是 一 个 非 NULL 值 的 时 候 ， 仍 然 会 
出 现 这 样 情况 。 
从 用 户 角 度 来 看 ， 这 应 该 是 一 个 缺陷 ， 不 过 从 MySQL 开发 者 的 角度 来 看 这 是 一 个 特性 。 
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选择 分 区 的 成 本 可 能 很 高 
如 前 所 述 分 区 有 很 多 类 型 ， 不 同类 型 分 区 的 实现 方式 也 不 同 ， 所 以 它们 的 性 能 也 各 
不 相同 。 尤 其 是 范围 分 区 ， 对 于 回答 “这 一 行 属 于 哪个 分 区 ”、“ 这 些 符合 查询 条 件 
的 行 在 哪些 分 区 ”这 样 的 问题 的 成 本 可 能 会 非常 高 ， 因 为 服务 器 需要 扫描 所 有 的 分 
区 定义 的 列表 来 找到 正确 的 答案 。 类 似 这 样 的 线性 搜索 的 效率 不 高 ， 所 以 随 着 分 区 
数 的 增长 ， 成 本 会 越 来 越 高 。 
我 们 所 实际 磁 到 的 类 似 这 样 的 最 糟糕 的 一 次 问题 是 按 行 写 和 人 大量 数据 的 时 候 。 每 写 
入 一 行 数据 到 范围 分 区 的 表 时 ， 都 需要 扫描 分 区 定义 列表 来 找到 合适 的 目标 分 区 。 
可 以 通过 限制 分 区 的 数量 来 缓解 此 问题 ， 根 据 实践 经 验 ， 对 大 多 数 系统 来 说 ，100 
个 左右 的 分 区 是 没有 问题 的 。 | 
其 他 的 分 区 类 型 ， 比 如 键 分 区 和 哈 希 分 区 ， 则 没有 这 样 的 问题 。 

打开 并 锁 住 所 有 底层 表 的 成 本 可 能 很 高 
当 查 询 访问 分 区 表 的 时 候 ，MySQL 需要 打开 并 锁 住所 有 的 底层 表 ， 这 是 分 区 表 的 另 
一 个 开销 。 这 个 操作 在 分 区 过 滤 之 前 发 生 ， 所 以 无 法 通过 分 区 过 滤 降 低 此 开销 ， 并 
且 该 开销 也 和 分 区 类 型 无 关 ， 会 影响 所 有 的 查询 。 这 一 点 对 一 些 本 身 操作 非常 快 的 
查询 ， 比 如 根据 主键 查找 单行 ， 会 带 来 明显 的 额外 开销 。 可 以 用 批量 操作 的 方式 来 
降低 单个 操作 的 此 类 开销 ， 例 如 使 用 批量 插入 或 者 LOAD DATA INFILE、 一 次 删除 多 
行 数据 ， 等 等 。 当 然 同 时 还 是 需要 限制 分 区 的 个 数 。 

维护 分 区 的 成 本 可 能 很 高 
某 些 分 区 维护 操作 的 速度 会 非常 快 ， 例 如 新 增 或 者 删除 分 区 ( 当 删 除 一 个 大 分 区 可 
能 会 很 慢 ， 不 过 这 是 另 一 回 事 )。 而 有 些 操作 ， 例 如 重组 分 区 或 者 类 似 ALTER 语句 的 
操作 : 这 类 操作 需要 复制 数据 。 重 组 分 区 的 原理 与 ALTER 类 似 ， 先 创建 一 个 临时 的 
分 区 ， 然 后 将 数据 复制 到 其 中 ， 最 后 再 删除 原 分 区 。 


如 上 所 述 ， 分 区 表 不 是 什么 “ 银 弹 ”。 下 面 是 目前 分 区 实现 中 的 一 些 其 他 限制 : 


。 所 有 分 区 都 必须 使 用 相同 的 存储 引擎 。 

。 分 区 函数 中 可 以 使 用 的 函数 和 表达 式 也 有 一 些 限 制 。 

© 某 些 存储 引擎 不 支持 分 区 。 

。 对 于 MyISAM 的 分 区 表 ， 不 能 再 使 用 LOAD INDEX INTO CACHE 操作 。 

。 对 于 MyISAM #, 使 用 分 区 表 时 需要 打开 更 多 的 文件 描述 符 。 虽 然 看 起 来 是 一 个 表 ， 
其 实 背 后 有 很 多 独立 的 分 区 ， 每 一 个 分 区 对 于 存储 引擎 来 说 都 是 一 个 独立 的 表 。 这 
样 即使 分 区 表 只 占用 一 个 表 缓 存 条 目 ， 文 件 描述 符 还 是 需要 多 个 。 因 此 ， 即 使 已 经 
配置 了 合适 的 表 缓 存 ， 以 确保 不 会 超过 操作 系统 的 单个 进程 可 以 打开 的 文件 描述 符 
的 个 数 ， 但 对 于 分 区 表 而 言 ， 还 是 会 出 现 超过 文件 描述 符 限 制 的 问题 。 


最 后 ， 需 要 指出 的 是 较 老 版 本 的 MySQL 问题 会 更 多 些 。 所 有 的 软件 都 是 有 bug 的 。 分 
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区 表 在 MySQL 5.1 中 引入 ， 在 后 面 的 5.1.40 和 5.1.50 之 后 修复 了 很 多 分 区 表 的 bug, E 
MySQL 5.5 H, 分 区 表 又 做 了 很 多 改进 ,这 才 使 得 分 区 表 可 以 逐步 考虑 用 在 生产 环境 了 。 
在 即将 发 布 的 MySQL 5.6 版 本 中 ， 分 区 表 做 了 更 多 的 增强 ， 例 如 新 引入 的 ALTER TABLE 
EXCHANGE PARTITION。 


7.1.5 查询 优化 

引入 分 区 给 查询 优化 带 来 了 一 些 新 的 思路 (同时 也 带 来 新 的 bug)。 分 区 最 大 的 优点 就 是 
优化 器 可 以 根据 分 区 函数 来 过 滤 一 些 分 区 。 根 据 粗 粒度 索引 的 优势 ， 通 过 分 区 过 滤 通 常 
可 以 让 查询 扫描 更 少 的 数据 (在 某 些 场景 下 ) 。 


所 以 ， 对 于 访问 分 区 表 来 说 ， 很 重要 的 一 点 是 要 在 WHERE 条 件 中 带 入 分 区 列 ， 有 时 候 即 
使 看 似 多 余 的 也 要 带 上 ， 这 样 就 可 以 让 优化 器 能 够 过 滤 掉 无 须 访问 的 分 区 。 如 果 没 有 这 
些 条 件 ，MySQL 就 需要 让 对 应 存储 引擎 访问 这 个 表 的 所 有 分 区 ， 如 果 表 非常 大 的 话 ， 
就 可 能 会 非常 慢 。 


使 用 EXPLAIN PARTITION 可 以 观察 优化 器 是 否 执 行 了 分 区 过 滤 ， 下 面 是 一 个 示例 : 


mysql> EXPLAIN PARTITIONS SELECT * FROM sales \G 
RRA RAR AKA RACK ARK AKA 人。 LOW 67 a a a a a k a Co OK OK kkk kkk 
id: 1 
select_type: SIMPLE 
table: sales by day 
partitions: p_2010,p 2011,p 2012 
type: ALL 
possible keys: NULL 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 3 


正如 你 所 看 到 的 ， 这 个 查询 将 访问 所 有 的 分 区 。 下 面 我 们 在 WHERE 条 件 中 再 加 入 一 个 时 
间 限 制 条 件 : 


mysql> EXPLAIN PARTITIONS SELECT * FROM sales by day WHERE day > '2011-01-01'\G 
六 米 米 炒米 米 六 六 炒米 炒米 玉米 米 米 炒米 水 炒米 炒 冰 冰冰 冰冰 1. row 2 KK KK KK OK KR KR KK OR k k k k OR KK OK kk KK 


id: 1 
select_type: SIMPLE 
table: sales by day 
partitions: p 2011,p 2012 


MySQL 优化 器 已 经 很 善于 过 滤 分 区 。 比 如 它 能 够 将 范围 条 件 转 化 为 离散 的 值 列 表 ， 并 
根据 列表 中 的 每 个 值 过 滤 分 区 。 然 而 ， 优 化 器 也 不 是 万 能 的 。 下 面 查 询 的 WHERE 条 件 理 
论 上 可 以 过 滤 分 区 ， 但 实际 上 却 不 行 : 
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mysql> EXPLAIN PARTITIONS SELECT * FROM sales by day WHERE YEAR(day) = 2010\G 
FCCC OSS OCG 7 。 rgy JABS SSS SIRI AR 


id: 1 
select_type: SIMPLE 
table: sales by day 
partitions: p 2010,p 2011,p_2012 


MySQL 只 能 在 使 用 分 区 函数 的 列 本 身 进行 比较 时 才能 过 滤 分 区 ， 而 不 能 根据 表达 式 的 
值 去 过 滤 分 区 ， 即 使 这 个 表达 式 就 是 分 区 函数 也 不 行 。 这 就 和 查询 中 使 用 独立 的 列 才能 
使 用 索引 的 道理 是 一 样 的 (参考 第 5 章 的 相关 内 容 )。 所 以 只 需要 把 上 面 的 查询 等 价 地 
改写 为 如 下 形式 即 可 : 


mysql> EXPLAIN PARTITIONS SELECT * FROM sales by day 


-> WHERE day BETWEEN '2010-01-01' AND '2010-12-31'\G 
HAKKAR AK HAAR HK kkk kkkkkkkkkk 1 row OK eK eo OK a GK KK KK OR EK OK OK OK KK KK 


id: 1 
select_type: SIMPLE 
table: sales by day 
partitions: p 2010 


这 里 写 的 WHERE 条 件 中 带 入 的 是 分 区 列 ， 而 不 是 基于 分 区 列 的 表达 式 ， 所 以 优化 器 能 够 
利用 这 个 条 件 过 滤 部 分 分 区 。 一 个 很 重要 的 原则 是 : 即便 在 创建 分 区 时 可 以 使 用 表达 式 ， 
但 在 查询 时 却 只 能 根据 列 来 过 滤 分 区 。 


优化 器 在 处 理 查询 的 过 程 中 总 是 尽 可 能 聪明 地 去 过 滤 分 区 。 例 如 ， 阁 分 区 表 是 关联 操作 
中 的 第 二 张 表 ， 且 关联 条 件 是 分 区 键 ，MySQL 就 只 会 在 对 应 的 分 区 里 匹配 行 。 (EXPLAIN 
无 法 显示 这 种 情况 下 的 分 区 过 滤 ， 因 为 这 是 运行 时 的 分 区 过 滤 ， 而 不 是 查询 优化 阶段 
的 。) 


7.1.6 合并 表 

SH (Merge table) 是 一 种 早期 的 、 简 单 的 分 区 实现 ， 和 分 区 表 相 比 有 一 些 不 同 的 限 

制 , 并 且 缺 乏 优化 。 分 区 表 严 格 来 说 是 一 个 光 辑 上 的 概念 ,用 户 无 法 访问 底层 的 各 个 分 区 ， 

te tite 但 是 合并 表 人 允许 用 户 单独 访问 各 个 子 表 。 分 区 表 和 优化 器 的 
合 更 紧密 ， 这 也 是 未 来 发 展 的 趋势 ， 而 合并 表 则 是 一 种 将 被 淘汰 的 技术 ， 在 未 来 的 版 

本 中 可 和 BE 被 删除 。 


和 分 区 表 类 似 的 是 ， 在 MyISAM 中 各 个 子 表 可 以 被 一 个 结构 完全 相同 的 逻辑 表 所 封装 。 
可 以 简单 地 把 这 个 表 当 作 一 个 “ 老 的 .早期 的 .功能 有 限 的 ” 的 分 区 表 , 因 为 它 自身 的 特性 ， 
甚至 可 以 提供 一 些 分 区 表 没 有 的 功能 ="。 


合并 表 相 当 于 一 个 容器 ， 里 面包 含 了 多 个 真实 表 。 可 以 在 CREATE TABLE 中 使 用 一 种 特别 


注 3: 这 些 特性 也 是 一 些 “ 鲜 为 人 知 的 犀利 ”特性 。 
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的 UNION 语法 来 指定 包含 哪些 真实 表 。 下 面 是 一 个 创建 合并 表 的 例子 : 


mysql> CREATE TABLE ti(a INT NOT NULL PRIMARY KEY)ENGINE=MyISAM; 
mysql> CREATE TABLE t2(a INT NOT NULL PRIMARY KEY )ENGINE-My ISAM; 
mysql> INSERT INTO t1(a) VALUES(1),(2); 
mysql> INSERT INTO t2(a) VALUES(1),(2); 
mysql> CREATE TABLE mrg(a INT NOT NULL PRIMARY KEY) 

-> ENGINE=MERGE UNION=(t1, t2) INSERT METHOD=LAST; 
mysql> os a FROM mrg; 


| 1 
| 1 
| 2 
| 2 


注意 到 ， 这 里 最 后 建立 的 合并 表 和 前 面 的 各 个 真实 表 字 段 完全 相同 ， 在 合并 表 中 有 的 
索引 各 个 真实 子 表 也 有 ， 这 是 创建 合并 表 的 前 提 条 件 。 另 外 还 注意 到 ， 各 个 子 表 在 对 
应 列 上 都 有 主键 限制 ， 但 是 最 终 的 合并 表 中 仍然 出 现 了 重复 值 ， 这 是 合并 表 的 另 一 个 
不 足 : 合并 表 中 的 每 一 个 子 表 行 为 和 表 定 义 都 是 相同 ， 但 是 合并 表 在 全 局 上 并 不 受 这 
些 条 件 限 制 。 


这 里 的 语法 INSERT_METHOD=LAST 告诉 MySQL， 将 所 有 的 INSERT 语句 都 发 送 给 最 后 一 
个 表 。 指 定 FIRST 或 者 LAST 关键 字 是 唯一 可 以 控制 行 插入 到 合并 表 的 哪 一 个 子 表 的 方式 
(当然 ， 还 是 可 以 直接 在 SQL 中 明确 地 操作 任何 一 个 子 表 ) 。 而 分 区 表 则 有 更 多 的 方式 可 
以 控制 数据 写 和 人 到 哪 一 个 子 表 中 。 


INSERT TIR A 了 结果 可 以 在 最 终 的 合并 表 中 看 到 ， 世 可 以 在 对 应 的 子 表 中 看 到 : 


mysql> INSERT INTO mrg(a) VALUES(3); 
myad? SELECT a FROM t2; 

+---+ 
|a | 
+---+ 
1 | 
| 2 | 
| 3 | 
+---+ 


合并 表 还 有 些 有 趣 的 限制 和 特性 , 例如 , 在 删除 合并 表 或 者 删除 一 个 子 表 的 时 候 会 怎样 ? 
删除 一 个 合并 表 ， 它 的 子 表 不 会 受 任何 影响 ， 而 如 果 直 接 删 除 其 中 一 个 子 表 则 可 能 会 有 
不 同 的 后 果 ， 这 要 视 操 作 系 统 而 定 。 例 如 在 GNU/Linux 上 ， 如 果子 表 的 文件 描述 还 是 被 


打开 的 状态 ， 那 么 这 个 表 还 存在 ， 但 是 只 能 通过 合并 表 才 能 访问 到 : 
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mysql> DROP TABLE t1, t2; 


mysql> SELECT a FROM mrg; 


+------ 十 
|a | 
+------ + 
| 1] 
| 1] 
| 2| 
| 2| 
| 3] 
+------ + 


SHILA RS HERATA, TAAR La Se EE FA AT ICE 


因为 合并 表 的 各 个 子 表 可 以 直接 被 访问 ， 所 以 它 还 具有 一 些 MySQL 5.5 分 区 所 不 能 提供 


在 使 用 CREATE 语句 创建 一 个 合并 表 的 时 候 ， 并 不 会 检查 各 个 子 表 的 兼容 性 。 如 有 果子 

表 的 定义 稍 有 不 同 ， 那 么 MySQL 就 可 能 创建 出 一 个 后 面 无 法 使 用 的 合并 表 。 另 外 ， 

如 果 在 成 功 创建 了 合并 表 后 再 修改 某 个 子 表 的 定义 ， 那 么 之 后 再 使 用 合并 表 可 能 会 

看 到 这 样 的 报错 : ERROR 1168 (HY000): Unable to open underlying table which is 

differently defined or of non-MyISAM type or doesn’t exist, 

根据 合并 表 的 特性 ， 不 难 发 现 ， 在 合并 表 上 无 法 使 用 REPLACE 语法 ， 无 法 使 用 目 增 

字段 。 更 多 的 细 市 请 参阅 MySQL 官方 手册 。 

如 果 一 个 查询 访问 合并 表 ， 那 么 它 需 要 访问 所 有 子 表 。 这 会 让 根据 键 查找 单行 的 查 

询 速度 变 慢 ， 如 果 能 够 只 访问 一 个 对 应 表 ， 速 度 肯 定 将 更 快 。 所 以 ， 限 制 合 并 表 中 

的 子 表 数量 很 重要 ， 特 别 是 当 合并 表 是 某 个 关联 查询 的 一 部 分 的 时 候 ， 因 为 这 时 访 

问 一 个 表 的 记录 数 可 能 会 将 比较 操作 传递 到 关联 的 其 他 表 中 ， 这 时 减少 记录 的 访问 

就 是 减少 整个 关联 操作 。 当 你 打算 使 用 合并 表 的 时 候 ， 还 需要 记 住 以 下 几 斥 : 

一 执行 范围 查询 时 ， 需 要 在 每 一 个 子 表 上 各 执行 一 次 ， 这 比 直接 访问 单个 表 的 性 
能 要 差 很 多 ， 而 且 子 表 越 多 ， 性 能 越 精 。 

一 全 表 扫 描 和 普通 表 的 全 表 扫 摘 速 度 相 同 。 

一 在 合并 表 上 做 唯一 键 和 主键 查询 时 ， 一 旦 找到 一 行 数据 就 会 停止 。 所 以 一 旦 查 


询 在 合并 表 的 某 一 个 子 表 中 找到 一 行 数据 ， 就 会 立刻 返回 ， 不 会 再 访问 任何 其 


他 的 表 。 
一 子 表 的 读 取 顺序 和 CREATE TABLE 语句 中 的 顺序 相同 。 如 果 需 要 频繁 地 按照 某 个 
特定 顺序 访问 表 ， 那 么 可 以 通过 这 个 特性 来 让 合并 排序 操作 更 高 效 。 


的 特性 : 


一 个 MyISAM 表 可 以 是 多 个 合并 表 的 子 表 。 
可 以 通过 直接 复制 .frm、.MYI、.MYD 文件 ,来 实现 在 不 同 的 服务 器 之 间 复 制 各 个 子 表 。 
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。 在 合并 表 中 可 以 很 容易 地 添加 新 的 子 表 : 直接 修改 合并 表 的 定义 就 可 以 了 。 

。 可 以 创建 一 个 合并 表 ， 让 它 只 包含 需要 的 数据 ， 例 如 只 包含 某 个 时 间 段 的 数据 ， 而 
在 分 区 表 中 是 做 不 到 这 一 点 的 。 

© 如果 想 对 某 个 子 表 做 备份 、 恢 复 、 修 改 、 修 复 或 者 别 的 操作 时 ， 可 以 先 将 其 从 合并 
表 中 删除 ， 操 作 结 束 后 再 将 其 加 回去 。 

© 可 以 使 用 myisampack 来 压缩 所 有 的 子 表 。 


相反 ， 分 区 表 的 子 表 都 是 被 MySQL 隐藏 的 ， 只 能 通过 分 区 表 去 访问 子 表 。 


7.2 视图 

MySQL 5.0 版 本 之 后 开始 引入 视图 。 视 图 本 身 是 一 个 虚拟 表 ， 不 存放 任何 数据 。 在 使 用 
SQL 语句 访问 视图 的 时 候 ， 它 返回 的 数据 是 MySQL 从 其 他 表 中 生成 的 。 视 图 和 表 是 在 
同一 个 命名 空间 ，MySQL 在 很 多 地 方 对 于 视图 和 表 是 同样 对 待 的 。 不 过 视图 和 表 也 有 
不 同 ， 例 如 ， 不 能 对 视图 创建 触发 器 ， 也 不 能 使 用 DROP TABLE 命令 删除 视图 。 


在 MySQL 官方 手册 中 对 如 何 创建 和 使 用 视图 有 详细 的 介绍 ， 本 书 不 会 详细 介绍 这 些 。 
我 们 将 主要 介绍 视图 是 如 何 实现 的 ， 以 及 优化 器 如 何 处 理 视图 ， 通 过 了 解 这 些 ， 和 希望 可 
以 让 大 家 在 使 用 视图 时 获得 更 高 的 性 能 。 我 们 将 使 用 示例 数据 库 world 来 演示 视图 是 如 
何 工作 的 : 
mysql> CREATE VIEW Oceania AS 

-> SELECT * FROM Country WHERE Continent = ‘Oceania’ 

-> WITH CHECK OPTION; 
实现 视图 最 简单 的 方法 是 将 SELECT 语句 的 结果 存放 到 临时 表 中 。 当 需 要 访问 视图 的 时 候 ， 
直接 访问 这 个 临时 表 就 可 以 了 。 我 们 先 来 看 看 下 面 的 查询 : 


mysql> SELECT Code, Name FROM Oceania WHERE Name = ‘Australia’; 
下 面 是 使 用 临时 表 来 模拟 视图 的 方法 。 这 里 临时 表 的 名 字 是 为 演示 用 的 : 


mysql> CREATE TEMPORARY TABLE TMP Oceania 123 AS 
-> SELECT * FROM Country WHERE Continent = “0ceania ; 
mysql> SELECT Code, Name FROM TMP Oceania_123 WHERE Name = ‘Australia’ ; 
这 样 做 会 有 明显 的 性 能 问题 ， 优 化 器 也 很 难 优 化 在 这 个 临时 表 上 的 查询 。 实 现 视 图 更 好 
的 方法 是 ， 重 写 含 有 视图 的 查询 ， 将 视图 的 定义 SQL 直接 包含 进 查 询 的 SQL 中。 下 面 
的 例子 展示 的 是 将 视图 定义 的 SQL 合并 进 查询 SQL 后 的 样子 : 
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mysql> SELECT Code, Name FROM Country 
-> WHERE Continent = ‘Oceania’ AND Name = ‘Australia’; 
MySQL 可 以 使 用 这 两 种 办 法 中 的 任何 一 种 来 处 理 视 图 。 这 两 种 算法 分 别称 为 合并 算法 
(MERGE) 和 临时 表 算 法 (TEMPTABLE) 站 4， 如 果 可 能 , 会 尽 可 能 地 使 用 合并 算法 。MySQL 
甚至 可 以 典 套 地 定义 视图 ， 也 就 是 在 一 个 视图 上 再 定义 另 一 个 视图 。 可 以 在 EXPLAIN 
EXTENDED 之 后 使 用 SHOW WARNINGS 来 查看 使 用 视图 的 查询 重 写 后 的 结果 。 


如 果 是 采用 临时 表 算法 实现 的 视图 ，EXPLAIN 中 会 显示 为 派生 表 (DERIVED)。 图 7-1 展 
示 了 这 两 种 实现 的 细节 。 


临时 表 算法 


a 服务 器 将 数据 
emanate, 





-1; 视图 的 两 种 实现 


如 有 果 视 图 中 包含 GROUY BY、DISTINCT、 任 何 聚 合 函 数 、UNION、 子 查询 等 ， 只 要 无 法 在 

原 表 记录 和 视图 记录 中 建立 一 一 映射 的 场景 中 ，MySQL 都 将 使 用 临时 表 算 法 来 实现 视 

图 。 上 面 列举 的 可 能 不 全 ， 而 且 这 些 规则 在 未 来 的 版 本 中 也 可 能 会 改变 。 如 果 你 想 确定 
MySQL 到 底 是 使 用 合并 算法 还 是 临时 表 算 法 ， 可 以 EXPLAIN 一 条 针对 视图 的 简单 查询 : 


注 4: 这 里 的 “temp table” 并 不 是 指 真 正 的 物理 上 存在 的 临时 表 。 没 有 经 过 这 些 改进 和 试验 ，MySQL A 
图 也 不 会 有 现在 的 效率 。 
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mysql> EXPLAIN SELECT * FROM <view_name>; 


+----+------------- 十 
| id | select type | 
+----+------------- 十 
| 4 | PRIMARY | 
| 2 | DERIVED | 
+----+------------- 十 


这 里 的 select_type 为 “DERIVED” ,说 明 该 视图 是 采用 临时 表 算法 实现 的 。 不 过 要 注意 : 
如 果 产生 的 底层 派生 表 很 大 ， 那 么 执行 EXPLAIN 可 能 会 非常 慢 。 因 为 在 MySQL 5.5 和 更 
老 的 版 本 中 ，EXPLAIN 是 需要 实际 执行 并 产生 该 派生 表 的 。 


视图 的 实现 算法 是 视图 本 身 的 属性 ， 和 作用 在 视图 上 的 查询 语 名 无关。 例如， 可 以 为 一 
个 基于 简单 查询 的 视图 指定 使 用 临时 表 算 法 : 


CREATE ALGORITHM=TEMPTABLE VIEW v1 AS SELECT * FROM sakila.actor; 


实现 该 视图 的 SQL 本 身 并 不 需要 临时 表 ， 但 基于 该 视图 无 论 执行 什么 样 的 查询 ， 视 图 都 
会 生成 一 个 临时 表 。 


7.2.1 可 更 新 视图 

可 更 新 视图 (updatable view) 是 指 可 以 通过 更 新 这 个 视图 来 更 新 视图 涉及 的 相关 表 。 只 
要 指定 了 合适 的 条 件 ， 就 可 以 更 新 、 删 除 甚至 向 视图 中 写 和 数据 。 例 如， 下 面 就 是 一 个 
合理 的 操作 : 


mysql> UPDATE Oceania SET Population = Population * 1.1 WHERE Name = ‘Australia’; 


如 果 视 图 定义 中 包含 了 GROUP BY、UNION、 聚 合 函 数 ， 以 及 其 他 一 些 特殊 情况 ， 就 不 能 
被 更 新 了 。 更 新 视图 的 查询 也 可 以 是 一 个 关联 语句 ， 但 是 有 一 个 限制 ， 被 更 新 的 列 必须 
来 自 同一 个 表 中 。 另 外 ， 所 有 使 用 临时 表 算 法 实现 的 视图 都 无 法 被 更 新 。 

在 上 一 节 定 义 视图 时 使 用 的 CHECK OPTION 子 句 ， 表 示 任 何 通过 视图 更 新 的 行 ， 都 必须 符 
合 视图 本 身 的 WHERE 条 件 定 义 。 所 以 不 能 更 新 视图 定义 列 以 外 的 列 ， 比 如 上 例 中 不 能 
更 新 Continent 列 ， 也 不 能 插入 不 同 Continent 值 的 新 数据 ， 否 则 MySQL 会 报 如 下 的 
错误 : l 


mysql> UPDATE Oceania SET Continent = 'Atlantis'; 
ERROR 1369 (HY000) : CHECK OPTION failed 'world.Oceania' 


某 些 关系 数据 库 人 允许 在 视图 上 建立 INSTEAD OF 触发 器 ， 通 过 触发 器 可 以 精确 控制 在 修改 
视图 数据 时 做 些 什么 。 不 过 MySQL 不 支持 在 视图 上 建 任何 触发 器 。 
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7.2.2 视图 对 性 能 的 影响 

多 数 人 认为 视图 不 能 提升 性 能 ， 实 际 上 ， 在 MySQL 中 某 些 情况 下 视图 也 可 以 帮助 提升 
性 能 。 而 且 视 图 还 可 以 和 其 他 提升 性 能 的 方式 全 加 使 用 。 例 如 ， 在 重 构 schema 的 时 候 
可 以 使 用 视图 ， 使 得 在 修改 视图 底层 表 结 构 的 时 候 ， 应 用 代码 还 可 能 继续 不 报错 的 运行 。 


可 以 使 用 视图 实现 基于 列 的 权限 控制 ， 却 不 需要 真正 的 在 系统 中 创建 列 权限 ， 因此 没有 


额外 的 开销 。 


CREATE VIEW public.employeeinfo AS 
SELECT firstname, lastname -- but not socialsecuritynumber 
FROM private.employeeinfo; 

GRANT SELECT ON public.* TO public user; 


有 时 候 也 可 以 使 用 伪 临 时 视图 实现 一 些 功能 。MySQL 虽然 不 能 创建 只 在 当前 连接 中 存 
在 的 真正 的 临时 视图 ， 但 是 可 以 建 一 个 特殊 名 字 的 视图 ， 然 后 在 连接 结束 的 时 候 删 除 该 
视图 。 这 样 在 连接 过 程 中 就 可 以 在 FROM 子 句 中 使 用 这 个 视图 ， 和 使 用 子 查询 的 方式 完 
全 相同 ， 因 为 MySQL 在 处 理 视图 和 处 理子 查询 的 代码 路 径 完全 不 同 ， 所 以 它们 的 性 能 
也 不 同 。 下 面 是 一 个 例子 : 
-- Assuming 1234 is the result of CONNECTION ID() 
CREATE VIEW temp.cost_per day 1234 AS 
SELECT DATE(ts) AS day, sum(cost) AS cost 
FROM logs.cost 
GROUP BY day; 
SELECT c.day, c.cost, s.sales 
FROM temp.cost_per day 1234 AS c 


INNER JOIN sales.sales_per_day AS s USING(day); 
DROP VIEW temp.cost per day 1234; 


我 们 这 里 使 用 连接 ID fF AL FI — BB ES, EMARE TA 


致 未 清理 临时 视图 的 时 候 ， 这 个 技巧 使 得 清理 临时 视图 变 得 很 简单 。 详 细 的 信息 可 以 参 
考 后 面 的 “丢失 的 临时 表 ”。 


使 用 临时 表 算 法 实现 的 视图 ， 在 某 些 时 候 性 能 会 很 糟糕 (虽然 可 能 比 直接 使 用 等 效 查 询 
语句 要 好 一 点 )。MySQL 以 递归 的 方式 执行 这 类 视图 ， 先 会 执行 外 层 查询 ， 即 使 外 层 查 
询 优化 器 将 其 优化 得 很 好 ， 但 是 MySQL 优化 器 可 能 无 法 像 其 他 的 数据 库 那 样 做 更 多 的 
内 外 结合 的 优化 。 外 层 查询 的 WHERE 条 件 无 法 “下 推 ” 到 构建 视图 的 临时 表 的 查询 中 ， 
临时 表 也 无 法 建立 索引 5。 下 面 是 一 个 例子 ,还 是 基于 temp.cost_per day 1234 这 个 视 
: 


注 5: 在 MySQL 5.6 中 可 能 会 有 所 改进 ， 但 是 在 本 书写 作 的 时 候 5.6 还 没有 发 布 。 
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mysql> SELECT c.day, c.cost, s.sales 

-> FROM temp.cost_per_day 1234 AS c 

-> INNER JOIN sales.sales per day AS s USING(day) 

-> WHERE day BETWEEN '2007-01-01' AND ‘2007-01-31'; 
在 这 个 查询 中 ，MySQL 先 执行 视图 的 SQL 生成 临时 表 ， 然 后 再 将 sales_per_day 和 临 
时 表 进 行 关 联 。 这 里 的 WHERE 子 句 中 的 BETWEEN 条 件 并 不 能 下 推 到 视图 当中 ， 所 以 视图 
在 创建 的 时 候 仍然 需要 将 所 有 的 数据 都 放 到 临时 表 当 中 ， 而 不 仅仅 是 一 个 月 的 数据 。 而 
且 临 时 表 中 不 会 有 索引 。 这 个 案例 中 ， 索引 还 不 是 问题 : MySQL 将 临时 表 作 为 关联 顺 
序 中 的 第 一 个 表 ， 因 此 这 里 可 以 使 用 sales_per_day 中 的 索引 。 不 过 ， 如 果 是 对 两 个 视 
图 做 关联 的 话 ， 优 化 器 就 没有 任何 索引 可 以 使 用 了 。 | 


视图 还 引入 了 一 些 并 非 MySQL 特有 的 其 他 问题 。 很 多 开发 者 以 为 视图 很 简单 ， 但 实际 
上 其 背后 的 逻辑 可 能 非常 复杂 。 开 发 人 员 如 果 没 有 意识 到 视图 背后 的 复杂 性 ， 很 可 能 会 
以 为 是 在 不 停 地 重复 查询 一 张 简单 的 表 ， 而 没有 意识 到 实际 上 是 代价 高 郧 的 视图 。 我 们 
见 过 不 少 案例 ， 一 条 看 起 来 很 简单 的 查询 ，EXPLAIN 出 来 却 有 几 百 行 ， 因 为 其 中 一 个 或 
者 多 个 表 ， 实 际 上 是 引用 了 很 多 其 他 表 的 视图 。 


如 果 打 算 使 用 视图 来 提升 性 能 ， 需 要 做 比较 详细 的 测试 。 即 使 是 合并 算法 实现 的 视图 也 
会 有 额外 的 开销 ， 而 且 视 图 的 性 能 很 难 预 测 。 在 MySQL 优化 器 中 ， 视 图 的 代码 执行 路 
径 也 完全 不 同 ， 这 部 分 代码 测试 还 不 够 全 面 ， 可 能 会 有 一 些 隐藏 缺陷 和 问题 。 所 以 ， 我 
们 认为 视图 还 不 是 那么 成 熟 。 例 如 ， 我 们 看 到 过 这 样 的 案例 ， 复 杂 的 视图 和 高 并 发 的 查 
询 导 致 查询 优化 器 花 了 大 量 时 间 在 执行 计划 生成 和 统计 数据 阶段 ,这 其 至 会 导致 MySQL 
服务 器 伪 死 ， 后 来 通过 将 视图 转换 成 等 价 的 查询 语句 解决 了 问题 。 这 也 说 明 视 图 一 一 即 
使 是 使 用 合并 算法 实现 的 一 一 并 不 总 是 有 很 优化 的 实现 。 


7.2.3 视图 的 限制 

在 其 他 的 关系 数据 库 中 你 可 能 使 用 过 物化 视图 ，MySQL 还 不 支持 物化 视图 (物化 视图 
是 指 将 视图 结果 数据 存放 在 一 个 可 以 查看 的 表 中 ， 并 定期 从 原始 表 中 刷新 数据 到 这 个 表 
中 )。MySQL 也 不 支持 在 视图 中 创建 索引 。 不 过 ， 可 以 使 用 构建 缓存 表 或 者 汇总 表 的 办 
法 来 模拟 物化 视图 和 索引 。 可 以 直接 使 用 Justin Swanhart’s 的 工具 Flexviews 来 实现 这 
AW. SEA 4 章 可 以 获得 更 多 的 相关 细 放 。 


MySQL 视图 实现 上 也 有 一 些 让 人 烦恼 的 地 方 。 例 如 ，MySQL 并 不 会 保存 视图 定义 的 原 
始 SQL 语句 ， 所 以 如 果 打 算 通过 执行 SHOW CREATE VIEW 后 再 简单 地 修改 其 结果 的 方式 
来 重新 定义 视图 ， 可 能 会 大 失 所 望 。SHOW CREATE VIEW 出 来 的 视图 创建 语句 将 以 一 种 不 
友好 的 内 部 格式 呈现 ， 充 满 了 各 种 转 义 符 和 引号 ， 没 有 代码 格式 化 ， 没 有 注释 ， 也 没有 
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如 果 打 算 重 新 修改 一 个 视图 ， 并 且 没 法 找到 视图 的 原始 的 创建 语句 的 话 ， 可 以 通过 使 用 
视图 的 frm 文件 的 最 后 一 行 获 得 一 些 信息 。 如 果 有 FILE 权 限 ， 甚 至 可 以 直接 使 用 SQL 
语句 中 的 LOAD_FILE() 来 读 取 frm 中 的 视图 创建 信息 。 再 加 上 一 些 字符 处 理工 作 ， 就 可 
以 获得 一 个 完整 的 视图 创建 语句 了 ， 感 谢 Roland Bouman 创造 性 的 实现 : 
mysql> SELECT 
-> REPLACE (REPLACE(REPLACE(REPLACE(REPLACE(REPLACE( . 
> REPLACE (REPLACE (REPLACE (REPLACE (REPLACE ( . 
> SUBSTRING_INDEX(LOAD_FILE('/var/lib/mysql/world/Oceania.frm' ), 
-> "\nsource=", -1), 
By Ng NRE Ep DS ME Ny ENE), 
> WES), An) WBS"), UWS), ATS V9, 
> — ‘\\o", '\o") 
> 


-> AS source; 


| SELECT * FROM Country WHERE continent = ‘Oceania’ 
WITH CHECK OPTION 


7.3 外 键 约束 


InnoDB 是 目前 MySQL 中 唯一 支持 外 键 的 内 置 存储 引擎 ， 所 以 如 果 需 要 外 键 支持 那 选 择 
就 不 多 了 (PBXT 也 有 外 键 支持 )。 


使 用 外 键 是 有 成 本 的 。 比 如 外 键 通常 都 要 求 每 次 在 修改 数据 时 都 要 在 另外 一 张 表 中 多 执 
行 一 次 查找 操作 。 PK InnoDB 强制 外 键 使 用 索引 ,但 还 是 无 法 消除 这 种 约束 检查 的 开销 。 
如 果 外 键 列 的 选择 性 很 低 ， 则 会 导致 一 个 非常 大 且 选 择 性 很 低 的 索引 。 例 如 ， 在 一 个 非 
常 大 的 表 上 有 status 列 ， 并 和 希望 限制 这 个 状态 列 的 取 值 ， 如 有 果 该 列 只 能 取 三 个 值 一 一 虽 
然 这 个 列 本 身 很 小 ， 但 是 如 果 主 键 很 大 ， 那 么 这 个 索引 就 会 很 大 一 一 而 且 这 个 索引 除了 
做 这 个 外 键 限制 ， 也 没有 任何 其 他 的 作用 了 。 


不 过 ， 在 某 些 场景 下 ， 外 键 会 提升 一 些 性 能 。 如 果 想 确保 两 个 相关 表 始 终 有 一 致 的 数据 ， 
那么 使 用 外 键 比 在 应 用 程序 中 检查 一 致 性 的 性 能 要 高 得 多 ， 此 外 ， 外 键 在 相关 数据 的 删 
除 和 更 新 上 ， 也 比 在 应 用 中 维护 要 更 高 效 ， 不 过 ， 外 键 维护 操作 是 逐 行 进行 的 ， 所 以 这 
样 的 更 新 会 比 批量 删除 和 更 新 要 慢 些 。 


外 键 约束 使 得 查询 需要 额外 访问 一 些 别 的 表 ， 这 也 意味 着 需要 额外 的 锁 。 如 果 问 子 表 中 

写 人 一 条 记录 ， 外 键 约束 会 让 InnoDB 检查 对 应 的 父 表 的 记录 ， 也 就 需要 对 父 表 对 应 记 
录 进 行 加 锁 操 作 ， 来 确保 这 条 记录 不 会 在 这 个 事务 完成 之 时 就 被 删除 了 。 这 会 导致 额外 

的 锁 等 待 ， 甚 至 会 导致 一 些 死 锁 。 因 为 没有 直接 访问 这 些 表 ， 所 以 这 类 死 锁 问题 往往 难 

以 排查 。 
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有 了 时， 可 以 使 用 触发 器 来 代替 外 键 。 对 于 相关 数据 的 同时 更 新 外 键 更 合适 ， 但 是 如 果 外 
键 只 是 用 作 数 值 约束 ， 那 么 触发 器 或 者 显 式 地 限制 取 值 会 更 好 些 。( 这 里 ， 可 以 直接 使 
用 ENUM 类 型 。) | 


如 果 只 是 使 用 外 键 做 约束 ， 那 通常 在 应 用 程序 里 实现 该 约束 会 更 好 。 外 键 会 带 来 很 大 的 
额外 消耗 。 这 里 没有 相关 的 基准 测试 的 数据 ， 不 过 我 们 碰 到 过 很 多 案例 ， 在 对 性 能 进行 
剖析 时 发 现 外 键 约束 就 是 瓶颈 所 在 ， 删 除外 键 后 性 能 立即 大 幅 提升 。 


7.4 4 MySQL 内 部 存储 代码 


MySQL 允许 通过 触发 器 、 存 储 过 程 、 函 数 的 形式 来 存储 代码 。 从 MySQL 5.1 开始 ， 还 
可 以 在 定时 任务 中 存放 代码 ， 这 个 定时 任务 也 被 称 为 “事件 。 人 存储 过 程 和 存储 函数 都 
被 统称 为 “存储 程序 ”。 


这 四 种 存储 代码 都 使 用 特殊 的 SQL 语句 扩展 ， 它 包含 了 很 多 过 程 处 理 语法 ， 例 如 循环 和 
条 件 分 支 等 ““。 不 同类 型 的 存储 代码 的 主要 区 别 在 于 其 执行 的 上 下 文 一 一 也 就 是 其 输入 
和 输出 。 存 储 过 程 和 存储 函数 都 可 以 接收 参数 然后 返回 值 ， 但 是 触发 器 和 事件 却 不 行 。 


一 般 来 说 ， 存 储 代 码 是 一 种 很 好 的 共享 和 复 用 代码 的 方法 。Giuseppe Maxia 和 其 他 一 些 
人 也 建立 了 一 些 通 用 的 存储 过 程 库 ， 在 网 站 htip://mysql-sr-lib.sourceforge.net 可 以 找到 。 
不 过 因为 不 同 的 关系 数据 库 都 有 各 自 的 语法 规则 ， 所 以 不 同 的 数据 库 很 难 复 用 这 些 存储 
代码 (DB2 是 一 个 例外 ， 它 和 MySQL 基于 相同 的 标准 ， 有 着 非常 类 似 的 语法 ) E 


这 里 将 主要 关注 存储 代码 的 性 能 ， 而 不 是 如 何 实 现 。 如 果 你 打算 学 习 如 何 编 写 存储 过 程 ， 
那么 Guy Harrison 和 Steven Feuerstein 编写 的 MySQL Stored Procedure Programming 
(O'Reilly) 应 该 会 有 帮助 。 


有 人 倡导 使 用 存储 代码 ， 也 有 人 反对 。 这 里 我 们 不 站 在 任何 一 边 ， 只 是 列举 一 下 在 
MySQL 中 使 用 存储 代码 的 优点 和 缺 操 。 首 先 ， 它 有 如 下 优 尽 : 


。 它 在 服务 器 内 部 执行 , 离 数据 最 近 , 另外 在 服务 器 上 执行 还 可 以 市 省 带宽 和 网 络 延迟 。 

e 这 是 一 种 代码 重用 。 可 以 方便 地 统一 业务 规则 ， 保 证 某 些 行为 总 是 一 致 ， 所 以 也 可 
以 为 应 用 提供 一 定 的 安全 性 。 

。 它 可 以 简化 代码 的 维护 和 版 本 更 新 。 


注 6: 这 个 语法 是 SQL/PSM 的 一 个 子 集 ，SQL/PSM 是 SQL 标准 中 的 持久 化 存储 模块 ， 在 ISO/IEC 9075- 
4:2003(E) 中 定义 。 

注 7: 有 一 些 专门 用 作 移 植 的 工具 ， 例 如 tsql2mysql 项 目 就 是 专门 用 于 移植 SQL Server 上 的 存储 过 程 。 
参考 : http://sourceforge.net/projects/tsql2mysql。 
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它 可 以 帮助 提升 安全 ， 比 如 提供 更 细 粒 度 的 权限 控制 。 一 个 常见 的 例子 是 银行 用 于 
转移 资金 的 存储 过 程 : 这 个 存储 过 程 可 以 在 一 个 事务 中 完成 资金 转移 和 记录 用 于 审 
计 的 日 志 。 应 用 程序 也 可 以 通过 存储 过 程 的 接口 访问 那些 没有 权限 的 表 。 

服务 器 端 可 以 缓存 存储 过 程 的 执行 计划 ， 这 对 于 需要 反复 调用 的 过 程 ， 会 大 大 降低 
消耗 。 

因为 是 在 服务 器 端 部 署 的 ， 所 以 备份 、 维 护 都 可 以 在 服务 器 端 完 成 。 所 以 存储 程序 
的 维护 工作 会 很 简单 。 它 没什么 外 部 依赖 ， 例 如 ， 不 依赖 任何 Perl 包 和 其 他 不 想 在 
服务 器 上 部 署 的 外 部 软件 。 

它 可 以 在 应 用 开发 和 数据 库 开 发 人 员 之 间 更 好 地 分 工 。 不 过 最 好 是 由 数据 库 专家 来 
开发 存储 过 程 ， 因 为 不 是 每 个 应 用 开发 人 员 都 能 写 出 高 效 的 SQL 查询 。 


存储 代码 也 有 如 下 缺 后 : 


MySQL 本 身 没有 提供 好 用 的 开发 和 调试 工具 ， 所 以 编写 MySQL 的 存储 代码 比 其 他 
的 数据 库 要 更 难 些 。 

较 之 应 用 程序 的 代码 ， 存 储 代 码 效率 要 稍微 差 些 。 例 如 ， 存 储 代 码 中 可 以 使 用 的 函 
数 非 常 有 限 ， 所 以 使 用 存储 代码 很 难 编写 复杂 的 字符 串 维护 功能 ， 也 很 难 实现 太 复 
杂 的 逻辑 。 | 

存储 代码 可 能 会 给 应 用 程序 代码 的 部 署 带 来 额外 的 复杂 性 。 原 本 只 需要 部 署 应 用 代 
码 和 库 表 结构 变更 ， 现 在 还 需要 额外 地 部 署 MySQL 内 部 的 存储 代码 。 

因为 存储 程序 都 部 署 在 服务 器 内 ， 所 以 可 能 有 安全 隐患 。 如 果 将 非 标准 的 加 密 功能 
放 在 存储 程序 中 ， 那 么 若 数 据 库 被 攻破 ， 数 据 也 就 泄漏 了 。 但 是 车 将 加 密 函 数 放 在 
应 用 程序 代码 中 ， 那 么 攻击 者 必须 同时 攻破 程序 和 数据 库 才 能 获得 数据 。 

存储 过 程 会 给 数据 库 服 务 器 增加 额外 的 压力 ， 而 数据 库 服务 器 的 扩展 性 相 比 应 用 服 
务 器 要 差 很 多 。 

MySQL 并 没有 什么 选项 可 以 控制 存储 程序 的 资源 消耗 ， 所 以 在 存储 过 程 中 的 一 个 小 
错误 ， 可 能 直接 把 服务 器 拖 死 。 

存储 代码 在 MySQL 中 的 实现 也 有 很 多 限制 一 一 执行 计划 缓存 是 连接 级 别 的 ， 游 标 
的 物化 和 临时 表 相 同 ， 在 MySQL 5.5 版 本 之 前 ， 异 常 处 理 也 非常 困难 ， 等 等 。( 我 
们 会 在 介绍 它 的 各 个 特性 的 同时 介绍 相关 的 限制 )。 简 而 言 之 ， 较 之 T-SQL 或 者 PL/ 
SQL，MySQL 的 存储 代码 功能 还 非常 非常 弱 。 

调试 MySQL 的 存储 过 程 是 一 件 很 困难 的 事情 。 如 果 慢 日 志 只 是 给 出 CALL XYZ('A')， 
通常 很 难 定位 到 底 是 什么 导致 的 问题 ， 这 时 不 得 不 看 看 存储 过 程 中 的 SQL 语句 是 如 
何 编 写 的 。( 这 在 Percona Server 中 可 以 通过 参数 控制 。) 
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。 它 和 基于 语句 的 二 进 制 日 志 复 制 合作 得 并 不 好 。 在 基于 语句 的 复制 中 ， 使 用 存储 代 
码 通常 有 很 多 的 陷阱 ， 除 非 你 在 这 方面 的 经 验 非常 丰富 或 者 非常 有 耐心 排查 这 类 问 
题 ， 否 则 需要 谨慎 使 用 。 


这 个 缺陷 列表 很 长 一 一 那么 在 真实 世界 中 ， 这 意味 着 什么 ? 我 们 来 看 一 个 真实 世界 中 和 弄 
巧 成 拙 的 案例 : 在 一 个 实例 中 ， 创 建 了 一 个 存储 过 程 来 给 应 用 程序 访问 数据 库 中 的 数据 ， 
这 使 得 所 有 的 数据 访问 都 需要 通过 这 个 接口 ， 甚 至 很 多 根据 主键 的 查询 也 是 如 此 ， 这 大 
概 使 系统 的 性 能 降低 了 五 倍 左右 。 


最 后 ， 存 储 代码 是 一 种 帮助 应 用 隐藏 复杂 性 ， 使 得 应 用 开发 更 简单 的 方法 。 不 过 ， 它 的 
性 能 可 能 更 低 ， 而 且 会 给 MySQL 的 复制 等 增加 潜在 的 风险 。 所 以 当 你 打算 使 用 存储 过 
程 的 时 候 ， 需 要 问 问 自己 ， 到 底 希 望 程序 逻辑 在 哪儿 实现 ;是 数据 库 中 还 是 应 用 代码 中 ? 
这 两 种 做 法 都 可 以 ， 也 都 很 流行 。 只 是 当 你 编写 存储 代码 的 时 候 ， 你 需要 明白 这 是 将 程 
序 逻 辑 放 在 数据 库 中 。 


7.4.1 存储 过 程 和 函数 
MySQL 的 架构 本 身 和 优化 器 的 特性 使 得 存储 代码 有 一 些 天 然 的 限制 ， 它 的 性 能 也 一 定 
程度 受 限 于 此 。 在 本 书 编写 的 时 候 ， 有 如 下 的 限制 : 


。 优化 器 无 法 使 用 关键 字 DETERMINISTIC 来 优化 单个 查询 中 多 次 调用 存储 函数 的 情况 。 

。 优化 器 无 法 评估 存储 函数 的 执行 成 本 。 

。 每 个 连接 都 有 独立 的 存储 过 程 的 执行 计划 缓存 。 如 果 有 多 个 连接 需要 调用 同一 个 存 
储 过 程 ， 将 会 浪费 缓存 空间 来 反复 缓存 同样 的 执行 计划 。( 如 果 使 用 的 是 连接 池 或 者 
是 持久 化 连接 ， 那 么 执行 计划 缓存 可 能 会 有 更 长 的 生命 周期 。) 

e 存储 程序 和 复制 是 一 组 诡异 组 合 。 如 果 可 以 ， 最 好 不 要 复制 对 存储 程序 的 调用 。 直 
接 复制 由 存储 程序 改变 的 数据 则 会 更 好 。MySQL 5.1 引入 的 行 复制 能 够 改善 这 个 问 
题 。 如 果 在 MySQL 5.0 中 开启 了 二 进 制 日 志 ， 那 么 要 么 在 所 有 的 存储 过 程 中 都 增加 
DETERMINISTIC 限制 或 者 设置 MySQL 的 选项 log_bin trust function creators, 


我 们 通常 会 希望 存储 程序 越 小 、 越 简单 越 好 。 和 希望 将 更 加 复杂 的 处 理 逻 辑 交 给 上 层 的 应 
用 实现 ， 通 常 这 样 会 使 代码 更 易 读 、 易 维护 ， 也 会 更 灵活 。 这 样 做 也 会 让 你 拥有 更 多 的 
计算 资源 ， 潜 在 的 还 会 让 你 拥有 更 多 的 缓存 资源 。 

不 过 ， 对 于 某 些 操 作 ， 存 储 过 程 比 其 他 的 实现 要 快 得 多 一 一 特别 是 当 一 个 存储 过 程 调用 
可 以 代替 很 多 小 查询 的 时 候 。 如 果 查 询 很 小 ， 相 比 这 个 查询 执行 的 成 本 ， 解 析 和 网 络 开 


- 销 就 变 得 非常 明显 。 为 了 证 明 这 一 点 ， 我 们 先 创建 一 个 简单 的 存储 过 程 ， 用 来 写 入 一定 


注 8: 通常 各 个 层 部 有 自己 的 缓存 。 一 译 者 注 
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数量 的 数据 到 一 个 表 中 ， 下 面 是 存储 过 程 的 代码 : 
DROP PROCEDURE IF EXISTS insert_many_rows; 


delimiter // 


CREATE PROCEDURE insert_many rows (IN loops INT) 
BEGIN 
DECLARE v1 INT; 
SET v1=loops; 
9 WHILE vi > 0 DO 
10 INSERT INTO test table values(NULL,O, 
11  qqqqqqqaqqquwwwwwwwwweeeeeeceeeerrrrrrrrrrtttttttttt' ， 
12 'qqqqqqqqqqwwwwwwwwwweeeeeeeeeerrrrrrrrrrtttttttttt'); 
13 SET v1 = vi - 1; 
14 END WHILE; 
15 END; 
16 // 


CON DOU PWN 情 


18 delimiter ; 
然后 对 该 存储 过 程 执 行 基准 测试 ， 看 插入 一 百 万 条 记录 的 时 间 ， 并 和 通过 客户 端 程序 逐 
条 插入 一 百 万 条 记录 的 时 间 进 行 对 比 。 这 里 表 结 构 和 硬件 并 不 重要 一 一 重要 的 是 两 种 方 
式 的 相对 速度 。 另 外 ， 我 们 还 测试 了 使 用 MySQL Proxy 连接 MySQL 来 执行 客户 端 程 


序 测试 的 性 能 。 为 了 让 事情 简单 ， 整 个 测试 在 一 台 服 务 器 上 完成 ， 包 括 客户 端 程序 和 


MySQL Proxy 实例 。 表 7-1 展示 了 测试 结果 。 


表 7-1: 写 入 一 百 万 数据 所 花费 的 总 时 间 


写 入 方式 总 消耗 时 间 
存储 过 程 101 sec 
客户 端 程序 279 sec 


T Fads et A cece lel 

可 以 看 到 存储 过 程 要 快 很 多 ， 很 大 程度 因为 它 无 须 网 络 通信 开销 、 解 析 开 销 和 优化 器 开 
销 等。 

我 们 将 在 本 章 的 后 半 部 分 介绍 如 何 维护 存储 过 程 。 


7.4.2 触发 器 

触发 器 可 以 让 你 在 执行 INSERT, UPDATE 或 者 DELETE 的 时 候 ， 执 行 一 些 特定 的 操作 。 
可 以 在 MySQL 中 指定 是 在 SQL 语句 执行 前 触发 还 是 在 执行 后 触发 。 触 发 器 本 身 没有 返 
回 值 ， 不 过 它们 可 以 读 取 或 者 改变 触发 SQL 语句 所 影响 的 数据 。 所 以 ， 可 以 使 用 触发 器 
实现 一 些 强制 限制 ， 或 者 某 些 业务 逻辑 ， 否 则 ， 就 需要 在 应 用 程序 中 实现 这 些 逻 辑 。 
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因为 使 用 触发 器 可 以 减少 客户 端 和 服务 器 之 间 的 通信 ， 所 以 触发 器 可 以 简化 应 用 逻辑 ， 
还 可 以 提高 性 能 。 另 外 ， 还 可 以 用 于 自动 更 新 反 范 式 化 数据 或 者 汇总 表 数 据 。 例 如 ， 在 
示例 数据 库 Sakila 中 ， 我 们 可 以 使 用 触发 器 来 维护 fm text 表 。 


MySQL 触发 器 的 实现 非常 简单 ， 所 以 功能 也 有 限 。 如 果 你 在 其 他 数据 库 产 品 中 已 经 重 
度 依赖 触发 器 ， 那 么 在 使 用 MySQL 的 时 候 需 要 注意 ， 很 多 时 候 MySQL 触发 器 的 表现 
和 预想 的 并 不 一 样 。 特 别 需要 注意 以 下 几 点 : 


© 对 每 一 个 表 的 每 一 个 事件 ， 最 多 只 能 定义 一 个 触发 器 ( 换 句 话说 ， 不 能 在 AFTER 
INSERT 上 定义 两 个 触发 器 ) 。 

e MySQL 只 支持 “基于 行 的 触发 ”一 一 也 就 是 说 ， 触 发 器 始终 是 针对 一 条 记录 的 ， 而 
不 是 针对 整个 SQL 语句 的 。 如 果 变 更 的 数据 集 非常 大 的 话 ， 效 率 会 很 低 。 


下 面 这 些 触发 器 本 身 的 限制 也 适用 于 MySQL : 


。 触发 器 可 以 掩盖 服务 器 背后 的 工作 ， 一 个 简单 的 SQL 语句 背后 ， 因 为 触发 器 ， 可 能 
包含 了 很 多 看 不 见 的 工作 。 例 如 ， 触 发 器 可 能 会 更 新 另 一 个 相关 表 ， 那 么 这 个 触发 
器 会 让 这 条 SQL 影响 的 记录 数 翻 一 倍 。 

。 ”触发 器 的 问题 也 很 难 排查 ， 如 果 某 个 性 能 问题 和 触发 器 相关 ， 会 很 难 分 析 和 定位 。 

。 触发 器 可 能 导致 死 锁 和 锁 等 待 。 如 果 触 发 器 失败 ， 那 么 原来 的 SQL 语句 也 会 失败 。 
如 果 没 有 意识 到 这 其 中 是 触发 器 在 搞鬼 ， 那 么 很 难 理解 服务 器 抛 出 的 错误 代码 是 什 
么 意思 。 


如 果 仅 考虑 性 能 ， 那 么 MySQL 触发 器 的 实现 中 对 服务 器 限制 最 大 的 就 是 它 的 “基于 行 
的 触发 ”设计 。 因 为 性 能 的 原因 ， 很 多 时 候 无 法 使 用 触发 器 来 维护 汇总 和 缓存 表 。 使 用 
触发 器 而 不 是 批量 更 新 的 一 个 重要 原因 就 是 ， 使 用 触发 器 可 以 保证 数据 总 是 一 致 的 。 


触发 器 并 不 能 一 定 保 证 更 新 的 原子 性 。 例 如 ， 一 个 触发 器 在 更 新 MyISAM 表 的 时 候 AN 
果 遇 到 什么 错误 ， 是 没有 办 法 做 回 滚 操作 的 。 这 时 ， 触 发 器 可 以 抛 出 错误 。 假 设 你 在 一 
个 MyISAM 表 上 建立 一 个 AFTER UPDATE 的 触发 器 ， 用 来 更 新 另 一 个 MyISAM 表 。 如 果 
触发 器 在 更 新 第 二 个 表 的 时 候 遇 到 错误 导致 更 新 失败 ， 那 么 第 一 个 表 的 更 新 并 不 会 回 滚 。 


在 InnoDB 表 上 的 触发 器 是 在 同一 个 事务 中 完成 的 ， 所 以 它们 执行 的 操作 是 原子 的 ， 原 
操作 和 触发 器 操作 会 同时 失败 或 者 成 功 。 不 过 ， 如 果 在 InnoDB 表 上 建 触 发 器 去 检查 数 
据 的 一 致 性 ， 需 要 特别 小 心 MVCC， 稍 不 小 心 ， 你 可 能 会 获得 错误 的 结果 。 假 设 ， 你 想 
实现 外 键 约束 ， 但 是 不 打算 使 用 InnoDB 的 外 键 约束 。 若 打算 编写 一 个 BEFORE INSERT 
触发 器 来 检查 写 和 的 数据 对 应 列 在 另 一 个 表 中 是 存在 的 ， 但 者 你 在 触发 器 中 没有 使 用 
SELECT FOR UPDATE， 那 么 并 发 的 更 新 语句 可 能 会 立刻 更 新 对 应 记录 ， 导 致 数据 不 一 致 。 
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我 们 不 是 危 言 答 听 ， 让 大 家 不 要 使 用 触发 器 。 相 反 ， 触 发 器 非常 有 用 ， 尤 其 是 实现 一 些 
约束 、 系 统 维护 任务 ， 以 及 更 新 反 范 式 化 数据 的 时 候 。 


还 可 以 使 用 触发 器 来 记录 数据 变更 日 志 。 这 对 实现 一 些 自 定 义 的 复制 会 非常 方便 ， 比 如 
需要 先 断 开 连 接 ， 然 后 修改 数据 ， 最 后 再 将 所 有 的 修改 重新 合并 回去 的 情况 。 一 个 简单 
的 例子 是 ， 一 组 用 户 各 自在 自己 的 个 人 电脑 上 工作 ， 但 他 们 的 操作 都 需要 同步 到 一 台 主 
数据 库 上 ， 然 后 主 数据 库 会 将 他 们 所 有 人 的 操作 都 分 发 给 每 个 人 。 实 现 这 个 系统 需要 做 
两 次 同步 操作 。 触 发 器 就 是 构建 整个 系统 的 一 个 好 办 法 。 每 个 人 的 电脑 上 都 可 以 使 用 一 
个 触发 器 来 记录 每 一 次 数据 的 修改 ， 并 将 其 发 送 到 主 数据 库 中 。 然 后 ， 再 使 用 MYSQL 
的 复制 将 主 数据 库 上 的 所 有 操作 都 复制 一 份 到 本 地 并 应 用 。 这 里 需要 额外 注意 的 是 ， 如 
果 触 发 器 基于 有 自 增 主键 的 记录 ， 并 且 使 用 的 是 基于 语句 的 复制 ， 那 么 自 增长 可 能 会 
复制 中 出 现 不 一 致 。 


有 时 候 可 以 使 用 一 些 技巧 绕 过 触发 器 是 “基于 行 的 触发 "这 个 限制 。Roland Bouman KHL, 
对 于 BEFORE 触发 器 除了 处 理 的 第 一 条 记录 ， 触 发 器 函数 ROW_COUNT() 总 是 会 返回 1。 可 
以 使 用 这 个 特点 ， 使 得 触发 器 不 再 是 针对 每 一 行 都 运行 ， 而 是 针对 一 条 SQL 语句 运行 一 
次 。 这 和 真正 意义 上 的 单条 SQL 语句 的 触发 器 并 不 相同 ， 不 过 可 以 使 用 这 个 技术 来 模拟 
单条 SQL 语句 的 BEFORE 触发 器 。 这 个 行为 可 能 是 MySQL 的 一 个 缺陷 ， 未 来 版 本 中 可 
能 会 被 修复 ， 所 以 在 使 用 这 个 技巧 的 时 候 ， 需 要 先 验证 在 你 的 MySQL 版 本 中 是 否 适 用 ， 
另外 ， 在 升级 数据 库 的 时 候 还 需要 检查 这 类 触发 器 是 否 还 能 够 正常 工作 。 下 面 是 一 个 使 
用 这 个 技巧 的 例子 : 


CREATE TRIGGER fake_statement_trigger 

BEFORE INSERT ON sometable 

FOR EACH ROW 

BEGIN 
DECLARE v_row_count INT DEFAULT ROW COUNT(); 
IF v_row_count <> 1 THEN 
-- Your code here 

END IF; 

END; 


7.4.3 事件 

事件 是 MySQL 5.1 引入 的 一 种 新 的 存储 代码 的 方式 。 它 类 似 于 Linux 的 定时 任务 ， 不 
过 是 完全 在 MySQL 内 部 实现 的 。 你 可 以 创建 事件 ， 指 定 MySQL 在 某 个 时 候 执行 一 段 
SQL 代码 ， 或 者 每 隔 一 个 时 间 间 隔 执行 一 段 SQL 人 代码。 通常， 我 们 会 把 复杂 的 SQL 都 
封装 到 一 个 存储 过 程 中 ， 这 样 事件 在 执行 的 时 候 只 需要 做 一 个 简单 的 CALL 调用 。 

事件 在 一 个 独立 事件 调度 线程 中 被 初始 化 ， 这 个 线程 和 处 理 连 接 的 线程 没有 任何 关系 。 
它 不 接收 任何 参数 ,也 没有 任何 的 返回 值 。 可 以 在 MySQL 的 日 志 中 看 到 命令 的 执行 日 志 ， 
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还 可 以 在 表 INFORMATION SCHEMA.EVENTS 中 看 到 各 个 事件 状态 ， 例 如 这 个 事件 最 后 一 次 
被 执行 的 时 间 等 。 | 


类 似 的 ， 一 些 适用 于 存储 过 程 的 考虑 也 同样 适用 于 事件 。 首 先 ， 创 建 事 件 意味 着 给 服务 
器 带 来 额外 工作 。 事 件 实现 机 制 本 身 的 开销 并 不 大 ， 但 是 事件 需要 执行 SQL， 则 可 能 会 
对 性 能 有 很 大 的 影响 。 更 进一步 ， 事 件 和 其 他 的 存储 程序 一 样 ， 在 和 基于 语句 的 复制 一 
起 工作 时 ， 也 可 能 会 触发 同样 的 问题 。 事 件 的 一 些 典型 应 用 包括 定期 地 维护 任务 、 重 建 
缓存 、 构 建 汇总 表 来 模拟 物化 视图 ， 或 者 存储 用 于 监控 和 诊断 的 状态 值 。 


下 面 的 例子 创建 了 一 个 事件 ， 它 会 每 周一 次 针对 某 个 数据 库 运 行 一 个 存储 过 程 (后 面 我 
们 将 展示 如 何 创建 这 个 存储 过 程 ) : 
CREATE EVENT optimize somedb ON SCHEDULE EVERY 1 WEEK 


DO 
CALL optimize_tables('somedb' ); 


你 可 以 指定 事件 本 身 是 否 被 复制 。 根 据 需 要 ， 有 时 需要 被 复制 ， 有 时 则 不 需要 。 看 前 面 


的 例子 ， 你 可 能 会 希望 在 所 有 的 备 库 上 都 运行 OPTIMIZE TABLE， 不 过 要 注意 如 果 所 有 的 
备 库 同时 执行 ， 可 能 会 影响 服务 器 的 性 能 (会 对 表 加 锁 ) 。 


最 后 ， 如 果 一 个 定时 事件 执行 需要 很 长 的 时 间 ， 那 么 有 可 能 会 出 现 这 样 的 情况 ， 即 前 面 
一 个 事件 还 未 执行 完成 ,下 一 个 时 间 点 的 事件 又 开始 了 。MySQL 本 身 不 会 防止 这 种 并 发 ， 
所 以 需要 用 户 自己 编写 这 种 情况 下 的 防 并 发 代码 。 你 可 以 使 用 函数 GET_LOCK() 来 确保 当 
前 总 是 只 有 一 个 事件 在 被 执行 : 
CREATE EVENT optimize somedb ON SCHEDULE EVERY 1 WEEK 
DO 
BEGIN 
DECLARE CONTINUE HANLDER FOR SQLEXCEPTION 
BEGIN END; 
IF GET_LOCK('somedb', 0) THEN 
DO CALL optimize tables('somedb' ); 
END IF; 


DO RELEASE LOCK('somedb' ); 
END 


这 里 的 CONTINUE HANLDER” 用 来 确保 ,即使 当 事 件 执行 出 现 了 异样 ,仍然 会 释放 持 有 的 锁 。 


虽然 事件 的 执行 是 和 连接 无 关 的 ， 但 是 它 仍然 是 线程 级 别 的 。MySQL 中 有 一 个 事件 调 
度 线程 ， 必 须 在 MySQL 配置 文件 中 设置 ， 或 者 使 用 下 面 的 命令 来 设置 : 


mysql> SET GLOBAL event_scheduler := 1; 


该 选项 一 旦 设置 ， 该 线程 就 会 执行 各 个 用 户 指定 的 事件 中 的 各 段 SQL 代码 。 你 可 以 通过 
观察 MySQL 的 错误 日 志 来 了 解 事 件 的 执行 情况 。 
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虽然 事件 调度 是 一 个 单独 的 线程 ， 但 是 事件 本 身 是 可 以 并 行 执行 的 。MySQL 会 创建 一 
个 新 的 进程 用 于 事件 执行 。 在 事件 的 代码 中 ， 如 果 你 调用 立 数 CONNECTION_ID ( ) ， 也 会 
返回 一 个 唯一 值 ， 和 一 般 的 线程 返回 值 一 样 一 一 虽然 事件 和 MySQL 的 连接 线程 是 无 关 
的 (这 里 的 函数 CONNECTION ID() 返回 的 只 是 线程 ID)。 这 里 的 进程 和 线程 生命 周期 就 
是 事件 的 执行 过 程 。 可 以 通过 SHOW PROCESSLIST 中 的 Command 列 来 查看 ， 这 些 线程 的 该 
列 总 是 显示 为 “Connect 。 


虽然 事件 处 理 进 程 需要 创建 一 个 线程 来 真正 地 执行 事件 ， 但 该 线程 在 时 间 执 行 结束 后 会 
被 销毁 ， 而 不 会 放 到 线程 缓存 中 ， 并 且 状 态 值 Threads_created 也 不 会 被 增加 。 


7.4.4 在 存储 程序 中 保留 注释 


存储 过 程 、 存 储 函 数 、 触 发 器 、 事 件 通常 都 会 包含 大 量 的 重要 代码 ， 在 这 些 代 码 中 加 上 
注释 就 非常 有 必要 了 。 但 是 这 些 注释 可 能 不 会 存储 在 MySQL 服务 器 中 ， 因 为 MySQL 
的 命令 行 客户 端 会 自动 过 滤 注 释 (命令 行 客户 端的 这 个 “特性 ” 令 人 生 厌 ， 不 过 这 就 是 
生活 )。 


一 个 将 注释 存储 到 存储 程序 中 的 技巧 就 是 使 用 版 本 相关 的 注释 ， 因 为 这 样 的 注释 可 能 
MySQL 服务 器 执行 《例如 ， 只 有 版 本 号 大 于 某 个 值 的 时 候 才 执行 的 代码 ) 。 服 务 器 和 客 
户 端 都 知道 这 不 是 普通 的 注释 ， 所 以 也 就 不 会 删除 这 些 注释 。 为 了 让 这 样 的 “版 本 相关 
的 代码 ”不 被 执行 ， 可 以 指定 一 个 非常 大 的 版 本 号 ， 例 如 99 999。 我 们 现在 给 触发 器 加 
上 一 些 注释 文档 ， 让 它 更 易 读 : 

CREATE TRIGGER fake statement_trigger 


BEFORE INSERT ON sometable 
FOR EACH ROW 


BEGIN 
DECLARE v_row_count INT DEFAULT ROW COUNT(); ` 
/*199999 ROW COUNT() is 1 except for the first row, so this executes 


only once per statement. */ 
IF v_row_count <> 1 THEN 
-- Your code here 
END IF; 
END; 


7.5 游标 

MySQL 在 服务 器 端 提 供 只 读 的 、 单 向 的 游标 ， 而 且 只 能 在 存储 过 程 或 者 更 底层 的 客户 
m API 中 使 用 。 因 为 MySQL 游标 中 指向 的 对 象 都 是 存储 在 临时 表 中 而 不 是 实际 查询 到 
的 数据 ， 所 以 MySQL 游标 总 是 只 读 的 。 它 可 以 逐 行 指向 查询 结果 ， 然 后 让 程序 做 进 一 
步 的 处 理 。 在 一 个 存储 过 程 中 ， 可 以 有 多 个 游标 ， 也 可 以 在 循环 中 “ 岁 套 ”地 使 用 游标 。 
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MySQL 的 游标 设计 也 为 粗心 的 人 “准备 ”了 陷阱 。 因 为 是 使 用 临时 表 实 现 的 ， 所 以 它 
在 效率 上 给 开发 人 员 一 个 错觉 。 需 要 记 住 的 最 重要 的 一 点 是 : 当 你 打开 一 个 游标 的 时 候 
需要 执行 整个 查询 。 考 虑 下 面 的 存储 过 程 . 
1 CREATE PROCEDURE bad cursor() 
2 BEGIN 
3 DECLARE film id INT; 
DECLARE f CURSOR FOR SELECT film id FROM sakila. film; 
OPEN f; 


4 
5 
6 FETCH f INTO film id; 
7 CLOSE f; 

8 


从 这 个 例子 中 可 以 看 到 ， 不 用 处 理 完 所 有 的 数据 就 可 以 立刻 关闭 游标 。 使 用 Oracle 或 
者 SQL Server 的 用 户 不 会 认为 这 个 存储 过 程 有 什么 问题 ， 但 是 在 MySQL 中 ， 这 会 带 来 
很 多 的 不 必要 的 额外 操作 。 使 用 SHOW STATUS 来 诊断 这 个 存储 过 程 ， 可 以 看 到 它 需要 做 
1 000 个 索引 页 的 读 取 ， 做 1 000 个 写 入 。 这 是 因为 在 表 sakila.film 中 有 1 000 Kidz, 
而 所 有 这 些 读 和 写 都 发 生 在 第 五 4 了 的 打开 游标 动作 。 


这 个 案例 告诉 我 们 ， 如 果 在 关闭 游标 的 时 候 你 只 是 扫描 一 个 大 结果 集 的 一 小 部 分 ， 那么 
存储 过 程 可 能 不 仅 没 有 减少 开销 ， 相 反 带 来 了 大 量 的 额外 开销 。 这 时 ， 你 需要 考虑 使 用 
LIMIT 来 限制 返回 的 结果 集 。 


游标 也 会 让 MySQL 执行 一 些 额外 的 IO 操作 ， GE ai ni 因为 临 
时 内 存 表 不 支持 BLOB FAN TEXT 类 型 ， 如 果 游 标 返 回 的 结果 包含 这 样 的 列 的 话 ，MySQL 
就 必须 创建 临时 磁盘 表 来 存放 ， 这 样 性 能 可 et 即使 没有 这 样 的 列 ， 当 临时 表 大 
于 tmp table size 的 时 候 ，MyQL 也 还 是 会 在 磁盘 上 创建 临时 表 。 


MySQL 不 支持 客户 端的 游标 ， 不 过 客户 端 API 可 以 通过 缓存 全 部 查询 结果 的 方式 模拟 
客户 端的 游标 ,这 和 直接 将 结果 放 在 一 个 内 存 数组 中 来 维护 并 没有 什么 不 同 ,参考 第 6 章 ， 
你 可 以 看 到 更 多 关于 一 次 性 读 取 整 个 结果 集 到 客户 端 时 的 性 能 


7.6 绑 定 变量 


从 MySQL 4.1 版 本 开始 ， 就 支持 服务 器 端的 绑 定 变量 (prepared statement), XK 
大 提高 了 客户 端 和 服务 器 端 数 据 传输 的 效率 。 你 车 使 用 一 个 支持 新 协议 的 客户 端 ， 如 
MySQL C API， 就 可 以 使 用 绑 定 变 量 功能 了 。 另 外 ，Java 和 .NET 的 也 都 可 以 使 用 各 自 
的 客户 端 Connector/J 和 Connector/NET 来 使 用 绑 定 变量 。 最 后 ， 还 有 一 个 SQL 接口 用 
于 支持 绑 定 变量 ， 后 面 我 们 将 讨论 这 个 〈 这 里 容易 引起 困扰 ) 。 
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= el — TBE SE SQL 时 ， 客户 端 向 服务 器 发 送 了 一 个 SQL 语句 的 原型 。 服 务 器 端 
收 到 这 个 SQL 语句 框架 后 ， 解 析 并 存储 这 个 SQL 语句 的 部 分 执行 计划 ， 返 回 给 客户 端 
一 个 SQL 语句 处 理 句 柄 。 以 后 每 次 执行 这 类 查询 ， 客 户 端 都 指定 使 用 这 个 句柄 。 


ERE SQL, 使 用 问号 标记 可 以 接收 参数 的 位 置 ， 当 真正 需要 执行 具体 查询 的 时 候 ， 
则 使 用 具体 值 代替 这 些 问号 。 例 如 ， 下 面 是 一 个 绑 定 变 量 的 SQL 语句 : 


INSERT INTO tbl(col1, col2, col3) VALUES (?, ?, ?); 


可 以 通过 向 服务 器 端 发 送 各 个 问号 的 取 值 和 这 个 SQL 的 句柄 来 执行 一 个 具体 的 查询 。 反 
复 使 用 这 样 的 方式 执行 具体 的 查询 ， 这 正 是 绑 定 变量 的 优势 所 在 。 具 体 如 何 发 送 取 值 参 
数 和 SQL 句柄 ， 则 和 各 个 客户 端的 编程 语言 有 关 。 使 用 Java 和 .NET 的 MySQL 连接 器 
就 是 一 种 办 法 。 很 多 使 用 MySQL C 语言 链接 库 的 客户 端 可 以 提供 类 似 的 接口 ， 需 要 根 
据 使 用 的 编程 语言 的 文档 来 了 解 如 何 使 用 绑 定 变量 。 


因为 如 下 的 原因 ，MySQL 在 使 用 绑 定 变量 的 时 候 可 以 更 高 效 地 执行 大 量 的 重复 语句 : 


.e 在 服务 器 端 只 需要 解析 一 次 SQL 语句 。 | 

© 在 服务 器 端 某 些 优化 器 的 工作 只 需要 执行 一 次 ， 因 为 它 会 缓存 一 部 分 的 执行 计划 。 

© 以 二 进 制 的 方式 只 发 送 参 数 和 句柄 ， 比 起 每 次 都 发 送 ASCII 码 文本 效率 更 高 ， 一 个 
二 进 制 的 日 期 字段 只 需要 三 个 字 节 ， 但 如 果 是 ASCII 码 则 需要 十 个 字 节 。 不 过 最 大 
的 节省 还 是 来 自 于 BLOB 和 TEXT 字段 ， 绑 定 变 量 的 形式 可 以 分 块 传输 ， 而 无 须 一 次 
性 传输 。 二 进 制 协议 在 客户 端 也 可 能 节省 很 多 内 存 ， 减 少 了 网 络 开 销 ， 另 外 ， 还 节 
省 了 将 数据 从 存储 原始 格式 转换 成 文本 格式 的 开销 。 

© 仅仅 是 参数 一 一 而 不 是 整个 查询 语句 一 一 需要 发 送 到 服务 器 端 ， 所 以 网 络 开销 会 更 
小 。 


。 MySQL 在 存储 参数 的 时 候 ， 直 接 将 其 存放 到 缓存 中 ， 不 再 需要 在 内 存 中 多 次 复制 。 


绑 定 变量 相对 也 更 安全 。 无 须 在 应 用 程序 中 处 理 转 义 ， 一 则 更 简单 了 ， 二 则 也 大 大 减少 
了 SQL 注入 和 攻击 的 风险 。( 任 何 时 候 都 不 要 信任 用 户 输 入 ， 即 使 是 使 用 绑 定 变量 的 时 
候 。) 





可 以 只 在 使 用 绑 定 变量 的 时 候 才 使 用 二 进 制 传输 协议 。 如 果 使 用 普通 的 mysqL_query () 
接口 则 不 会 使 用 二 进 制 传输 协议 。 还 有 一 些 客户 端 让 你 使 用 绑 定 变量 ， 先 发 送 带 参数 的 
绑 定 SQL， 然后 发 送 变 量 值 ， 但 是 实际 上 ， 这 些 客户 端 只 是 模拟 了 绑 定 变量 的 接口 ， 最 
后 还 是 会 直接 用 具体 值 代替 参数 后 ， 再 使 用 mysql_query() 发 送 整 个 查询 语句 。 
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7.6.1 绑 定 变量 的 优化 


对 使 用 绑 定 变量 的 SQL，MySQL 能 够 缓存 其 部 分 执行 计划 ， 如 果 某 些 执行 计划 需要 根 
据 传 人 的 参数 来 计算 时 ，MySQL 就 无 法 缓存 这 部 分 的 执行 计划 。 根 据 优化 器 什么 时 候 
工作 ， 可 以 将 优化 分 为 三 类 。 在 本 书 编写 的 时 候 ， 下 面 的 三 点 是 适用 的 。 


在 准备 阶段 

服务 器 解析 SQL 语句 ， 移 除 不 可 能 的 条 件 ， 并 且 重 写 子 查询 。 
在 第 一 次 执行 的 时 候 

如 果 可 能 的 话 ， 服 务 器 先 简 化 妊 套 循环 的 关联 ， 并 将 外 关联 转化 成 内 关联 。 
在 每 次 SQL 语 身 执行 时 


服务 器 做 如 下 事情 : 
。 weak. 


。 如 有 果 可 能 的 话 ， 尽 量 移 除 COUNT()、MIN() 和 MAX()。 

© 移 除 常数 表达 式 。 

© 检测 常量 表 。 

。 做 必要 的 等 值 传播 。 

e 分析 和 优化 ref. range 和 索引 优化 等 访问 数据 的 方法 。 
。 优化 关联 顺序 。 


参考 第 6 章 ， 可 以 了 解 更 多 关于 这 些 优化 的 信息 。 理 论 上 ， PENE 需要 做 一 次 ， 但 
实际 上 ， 上 面 的 操作 还 是 都 会 被 执行 


7.6.2 SQL 接口 的 绑 定 变量 


在 4.1 和 更 新 的 版 本 中 ，MySQL 支持 了 SQL 接口 的 绑 定 变量 。 不 使 用 二 进 制 传输 协议 
也 可 以 直接 以 SQL 的 方式 使 用 绑 定 变量 。 下 面 案 例 展示 了 如 何 使 用 SQL 接口 的 绑 定 变 量 : 


mysql> SET @sql := “SELECT actor_id, first_name, last_name 
-> FROM sakila.actor WHERE first_name = ?'; 

mysql> PREPARE stmt_fetch_actor FROM @sql; 

mysql> SET @actor_name := ‘Penelope’; 

mysql> EXECUTE stmt -fetch actor sini @actor_name; 

+---------- +------------+----------- 

| actor id | first_name | last_name | 

+---------- +------------ +----------- + 

| 1 | PENELOPE | GUINESS | 

| 54 | PENELOPE | PINKETT | 

| 104 | PENELOPE | CRONYN | 

| 120 | PENELOPE | MONROE | 

+ 


mysql> DEALLOCATE PREPARE stmt_fetch_actor; 


当 服 务 器 收 到 这 些 SQL 语句 后 , 先 会 像 一 般 客户 端的 链接 库 一 样 将 其 翻译 成 对 应 的 操作 。 
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这 意味 着 你 无 须 使 用 二 进 制 协议 也 可 以 使 用 绑 定 变量 。 


正如 你 看 到 的 ， 比 起 直接 编写 的 SQL 语句 ， 这 里 的 语法 看 起 来 有 一 些 怪 怪 的 。 那 么 ， 这 
种 写法 实现 的 绑 定 变 量 到 底 有 什么 优势 呢 ? 


最 主要 的 用 途 就 是 在 存储 过 程 中 使 用 。 在 MySQL 5.0 版 本 中 ， 就 可 以 在 存储 过 程 中 使 用 
绑 定 变量 ， 其 语法 和 前 面 介 绍 的 SQL 接口 的 绑 定 变 量 类 似 。 这 意味 ， 可 以 在 存储 过 程 
中 构建 并 执行 “动态 ”的 SQL 语句 ， 这 里 的 “动态 ”是 指 可 以 通过 灵活 地 拼接 字符 串 等 
参数 构建 SQL 语句 。 例 如 ， 下 面 的 示例 存储 过 程 中 可 以 针对 某 个 数据 库 执 行 OPTIMIZE 
TABLE 的 操作 : 


DROP PROCEDURE IF EXISTS optimize tables; 
DELIMITER // 
CREATE PROCEDURE optimize tables(db name VARCHAR(64)) 
BEGIN 
DECLARE t VARCHAR(64); 
DECLARE done INT DEFAULT 0; 
DECLARE c CURSOR FOR 
SELECT table name FROM INFORMATION SCHEMA. TABLES 
WHERE TABLE SCHEMA = db name AND TABLE TYPE = ‘BASE TABLE’; 
DECLARE CONTINUE HANDLER FOR SQLSTATE '02000' SET done = 1; 
OPEN c; 
tables_loop: LOOP 
FETCH c INTO t; 
IF done THEN 
LEAVE tables loop; 
END IF; 
SET @stmt_text := CONCAT("OPTIMIZE TABLE ", db name, ".", t); 
PREPARE stmt FROM @stmt_text; 
EXECUTE stmt; 
DEALLOCATE PREPARE stmt; 
END LOOP; 
CLOSE c; 
END// 
DELIMITER ; 


可 以 这 样 调用 这 个 存储 过 程 : 
mysql> CALL optimize_tables('sakila'); 
另 一 种 实现 存储 过 程 中 循环 的 办 法 是 : 


_REPEAT 
` FETCH c INTO t; 
IF NOT done THEN 
SET @stmt_text := CONCAT("OPTIMIZE TABLE ", db_name, ".", t); 
PREPARE stmt FROM @stmt_text; 
EXECUTE stmt; 
DEALLOCATE PREPARE stmt; 
END IF; 
UNTIL done END REPEAT; 


7.6 HESS | 287 


这 两 种 循环 结构 最 重要 的 区 别 在 于 : REPEAT 会 为 每 个 循环 检查 两 次 循环 条 件 。 在 这 个 例 
子 中 ， 因 为 循环 条 件 检查 的 是 一 个 整数 判断 ， 并 不 会 有 什么 性 能 问题 ， 如 果 循 环 的 判断 
条 件 非 常 复杂 的 话 ， 则 需要 注意 这 两 者 的 区 别 。 


像 这 样 使 用 SQL 接口 的 绑 定 变量 拼接 表 名 和 库 名 是 很 常见 的 ， 这 样 的 好 处 是 无 须 使 用 任 
何 参数 就 能 完成 SQL 语句 。 而 库 名 和 表 名 都 是 关键 字 ， 在 二 进 制 协议 的 绑 定 变量 中 是 不 
能 将 这 两 部 分 参数 化 的 。 另 一 个 经 常 需要 动态 设置 的 就 是 LIMIT 子 句 ， 因 为 二 进 制 协议 
中 也 无 法 将 这 个 值 参数 化 。 


另外 ， 编 写 存储 过 程 时 ，SQL 接口 的 绑 定 变量 通常 可 以 很 大 程度 地 帮助 我 们 调试 绑 定 变 
量 ， 如 果 不 是 在 存储 过 程 中 ，SQL 接口 的 绑 定 变量 就 不 是 那么 有 用 了 。 因 为 SQL 接口 
的 绑 定 变量 ， 它 既 没 有 使 用 二 进 制 传输 协议 ， 也 没有 能 够 节省 带宽 ， 相 反 还 总 是 需要 增 
加 至 少 一 次 额外 网 络 传输 才能 完成 一 次 查询 。 所 有 只 有 在 某 些 特殊 的 场景 下 SQL 接口 的 
绑 定 变量 才 有 用 ， 比 如 当 SQL 语句 非常 非常 长 ， 并 且 需 要 多 次 执行 的 时 候 。 


7.6.3 绑 定 变量 的 限制 
关于 绑 定 变量 的 一 些 限 制 和 注意 事项 如 下 : 


。 绑 定 变量 是 会 话 级 别 的 ， 所 以 连接 之 间 不 能 共用 绑 定 变量 句柄 。 同 样 地 ， 一 旦 连接 
断 开 ， 则 原来 的 句柄 也 不 能 再 使 用 了 。 (连接 凶 和 持久 化 连接 可 以 在 一 定 程 度 上 缓解 
这 个 问题 。) 

o 在 MySQL 5.1 版 本 之 前 ， 绑 定 变量 的 SQL 是 不 能 使 用 查询 缓存 的 。 

。 并 不 是 所 有 的 时 候 使 用 绑 定 变量 都 能 获得 更 好 的 性 能 。 如 果 只 是 执行 一 次 SQL， 那 
么 使 用 绑 定 变量 方式 无 疑 比 直接 执行 多 了 一 次 额外 的 准备 阶段 消耗 ， 而 且 还 需要 一 
次 额外 的 网 络 开 销 。( 要 正确 地 使 用 绑 定 变 量 ， 还 需要 在 使 用 完成 后 ， 释 放 相 关 的 资 
源 。) 

e 当前 版 本 下 ， 还 不 能 在 存储 函数 中 使 用 绑 定 变量 (但 是 存储 过 程 中 可 以 使 用 )。 

e “如果 总 是 筷 记 释放 绑 定 变量 资源 ， 则 在 服务 器 端 很 容易 发 生 资源 “泄漏 。 绑 定 变量 
SQL 总 数 的 限制 是 一 个 全 局 限制 ， 所 以 某 一 个 地 方 的 错误 可 能 会 对 所 有 其 他 的 线程 
都 产生 影响 。 

o 有些 操 作 ， 如 BEG6IN， 无 法 在 绑 定 变量 中 完成 。 


不 过 使 用 绑 定 变量 最 大 的 障碍 可 能 是 : 它 是 如 何 实现 以 及 原理 是 怎样 的 ， 这 两 点 很 容易 
让 人 困惑 。 有 时 ， 很 难 解释 如 下 三 种 绑 定 变量 类 型 乙 间 的 区 别 是 什么 : 


EP ARP HES 
客户 端的 驱动 程序 接收 一 个 带 参数 的 SQL， 再 将 指定 的 值 带 入 其 中 ， 最 后 将 完整 的 
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查询 发 送 到 服务 器 端 。 

WF Be HH ES 

”客户 端 使 用 特殊 的 二 进 制 协议 将 带 参 数 的 字符 捉 发 送 到 服务 器 端 ， 然 后 使 用 二 进 制 

协议 将 具体 的 参数 值 发 送 给 服务 器 端 并 执行 。 

SQL 接口 的 绑 定 变量 
客户 端 先 发 送 一 个 带 参数 的 字符 串 到 服务 器 端 , 这 类 似 于 使 用 PREPARE 的 SQL 语句 ， 
然后 发 送 设置 参数 的 SQL， 最 后 使 用 EXECUTE 来 执行 SQL。 所 有 这 些 都 使 用 普通 的 
文本 传输 协议 。 


m \ Ve 3 
7.7 用 户 目 定 义 函 数 
从 很 早 开 始 ，MySQL 就 支持 用 户 自 定义 函数 (UDF)。 存 储 过 程 只 能 使 用 SQL 来 编写 ， 
而 UDF 没有 这 个 限制 ， 你 可 以 使 用 支持 C 语言 调用 约定 的 任何 编程 语言 来 实现 。 


UDF 必须 事先 编译 好 并 动态 链接 到 服务 器 上 ， 这 种 平台 相关 性 使 得 UDF 在 很 多 方面 都 
(RoR, UDF 速度 非常 快 , 而 且 可 以 访问 大 量 操 作 系 统 的 功能 , 还 可 以 使 用 大 量 库 函数 。 
使 用 SQL 实现 的 存储 函数 在 实现 一 些 简 单 操作 上 很 有 优势 ， 诸 如 计算 球体 上 两 点 之 间 的 
距离 ， 但 是 如 果 操 作 涉 及 到 网 络 交互 ， 那 么 只 能 使 用 UDF 了 。 同 样 地 ， 如 果 需 要 一 个 
MySQL 不 支持 的 统计 聚合 函数 ， 而 且 无 法 使 用 SQL 编写 的 存储 函数 来 实现 的 话 ， 通 常 
使 用 UDF 是 很 容易 实现 的 。 


能 力 越 大 ， 责 任 越 大 。 所 以 在 UDF 中 的 一 个 错误 很 可 能 会 让 服务 器 直接 骨 溃 ， 甚 至 扰 
乱 服务 器 的 内 存 或 者 数据 ， 另 外 ， 所 有 C 语言 具有 的 六 在 风险 ，UDF 也 都 有 。 


aa 
p 和 使 用 SQL 语言 编写 存储 程序 不 同 ，UDF 无 法 读 写 数 据 表 一 一 至 少 ， 无 法 在 调用 
a3: , UDF 的 线程 中 使 用 当前 事务 处 理 的 上 下 文 来 读 写 数 据 表 。 这 意味 着 ， 它 更 适合 用 作 
4%， 计算 或 者 与 外 面 的 世界 交互 。MySQL 已 经 支持 越 来 越 多 的 方式 和 外 面 的 资源 交互 了 。 
Brian Aker 和 Patrick Galbraith 创建 的 与 memcached 通信 的 函数 就 是 一 个 UDF 很 好 


的 案例 (EZ : htip://tangent.org/586/Memcached_Functions_for_MySQOL.html)。 





如 果 打 算 使 用 UDF， 那 么 在 MySQL 版 本 升级 的 时 候 需 要 特别 注意 做 相应 的 改变 ， 因 为 
很 可 能 需要 重新 编译 这 些 UDF， 或 者 其 至 需要 修改 UDF 来 让 它 能 在 新 的 版 本 中 工作 。 
还 需要 注意 的 是 ， 你 需要 确保 UDF 是 线程 安全 的 ， 因 为 它们 需要 在 MySQL 中 执行 ， 而 
MySQL 是 一 个 纯粹 的 多 线程 环境 。 


现在 已 经 有 很 多 写 好 的 UDF 直接 提供 给 MySQL 使 用 ， 还 有 很 多 UDF 的 示例 可 供 参考 ， 
以 便 完成 自己 的 UDF。 现 在 UDF 最 大 的 仓库 是 http:/www.mysqludf.org。 
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下 面 是 一 个 用 户 自 定 义 函 数 NOW_USEC() 的 代码 ， 这 个 函数 在 第 10 章 中 我 们 将 用 它 来 测 
量 复制 的 速度 : 


#include <my_global.h> 
#include <my_sys.h> 
#include <mysql.h> 
#include <stdio.h> 
#include <sys/time.h> 
#include <time.h> 
#include <unistd.h> 
extern "C" { 


} 


my bool now_usec_init(UDF_INIT *initid, UDF_ARGS *args, char *message); 
char *now_usec( 

UDF_INIT *initid, 

UDF_ARGS *args, 

char *result, 

unsigned long *length, 

char *is null, 

char *error); 


my bool now usec init(UDF INIT *initid, UDF_ARGS *args, char *message) { 


return 0; 


} 
char *now_usec(UDF_INIT *initid, UDF_ARGS *args, char *result, 


} 


unsigned long *length, char *is_ null, char *error) { 
struct timeval tv; 
struct tm* ptm; 
char time_string[20]; /* e.g. "2006-04-27 17:10:52" */ 
char *usec_time_string = result; 
time_t t; 
/* Obtain the time of day, and convert it to a tm struct. */ 
gettimeofday (&tv, NULL); 
t = (time_t)tv.tv_sec; 
ptm = localtime (&t); 
/* Format the date and time, down to a single second. */ 
strftime (time_string, sizeof (time string), "%Y-%m-%d %H:%M:%S", ptm); 
/* Print the formatted time, in seconds, followed by a decimal point 
* and the microseconds. */ 
sprintf(usec time string, "%s.%06ld\n", time_string, tv.tv_usec); 
*length = 26; 
return(usec_time_string) ; 


参考 前 一 章 中 的 案例 学 习 ， 可 以 看 到 如 何 使 用 用 户 自 定义 函数 来 解决 一 些 环 手 的 问题 。 
我 们 在 Percona Toolkit 中 也 使 用 了 UDF 来 完成 一 些 工作 ， 例 如 高 效 的 数据 复制 校 验 ， 
或 者 在 Sphinx 索引 之 前 使 用 UDF 来 预 处 理 一 些 问题 等 。UDF 是 一 款 非 常 强 大 的 工具 。 


7.8 插件 


除了 UDF，MySQL 还 支持 各 种 各 样 的 插件 。 这 些 插 件 可 以 在 MySQL 中 新 增 局 动 选项 
和 状态 值 ， 还 可 以 新 增 INFORMATION SCHEMA #, 或 者 在 MySQL 的 后 台 执 行 任务 ， 等 等 。 
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在 MySQL 5.1 和 更 新 的 版 本 中 ，MySQL 新 增 了 很 多 的 插件 接口 ， 使 得 你 无 须 直接 修改 
MySQL 的 源 代码 就 可 以 大 大 扩展 它 的 功能 。 下 面 是 一 个 简单 的 插件 列表 。 


存储 过 程 插件 
存储 过 程 插件 可 以 帮 你 在 存储 过 程 运 行 后 再 处 理 一 次 运行 结果 。 这 是 一 个 很 古 
老 的 插件 了 ， 和 UDF 有 些 类 似 ， 多 数 人 都 可 能 忘记 了 这 个 插件 的 存在 。 内 置 的 
PROCEDURE ANALYSE 就 是 一 个 很 好 的 示例 。 

后 台 插 件 
后 台 插 件 可 以 让 你 的 程序 在 MySQL 中 运行 ， 可 以 实现 自己 的 网 络 监听 、 执 行 自 
己 的 定期 任务 。 后 台 插 件 的 一 个 典型 例子 就 是 在 Percona Server 中 包含 的 Handler- 
Socket 插件 。 它 监听 一 个 新 的 网 络 端口 ， 使 用 一 个 简单 的 协议 可 以 帮 你 无 须 使 用 
SQL 接口 直接 访问 InnoDB 数据 ， 这 也 使 得 MySQL 能 够 像 一 些 NoSQL 一 样 具有 非 
常 高 的 性 能 。 

INFORMATION SCHEMA 插件 
这 个 插件 可 以 提供 一 个 新 的 内 存 INFORMATION SCHEMA 表 。 

全 文 解析 插件 
这 个 插件 提供 一 种 处 理 文本 的 功能 ， 可 以 根据 自己 的 需求 来 对 一 个 文档 进行 分 词 ， 
所 以 如 果 给 定 一 个 PDF 文档 目录 ， 可 以 使 用 这 个 插件 对 这 个 文档 进行 分 词 处 理 。 也 
可 以 用 此 来 增强 查询 执行 过 程 中 的 词语 匹配 功能 。 


审计 插件 
审计 插件 在 查询 执行 的 过 程 中 的 某 些 固定 点 被 调用 ， 所 以 它 可 以 用 作 (例如 ) 记录 
MySQL 的 事件 日 志 。 

认证 插件 


认证 插件 既 可 以 在 MySQL 客户 端 也 可 在 它 的 服务 器 端 ， 可 以 使 用 这 类 插件 来 扩展 
MySQL 的 认证 功能 ， 例 如 可 以 实现 PAM 和 LDAP 认证 。 
要 了 解 更 多 细节 ， 可 以 参考 MySQL 的 官方 手册 ， 或 者 读 读 由 Sergei Golubchik 和 
Andrew Hutchings (Packt) 编写 的 MySQL 5.1 Plugin Development。 如 果 你 需要 一 个 插件 ， 
但 是 却 不 知道 怎么 实现 ， 有 很 多 公司 都 提供 这 类 咨询 服务 ， 例 如 Monty Program, Open 
Query, Percona 和 SkySQL。 


7.9 字符 集 和 校对 


字符 集 是 指 一 种 从 二 进 制 编码 到 某 类 字符 符号 的 映射 ， 可 以 参考 如 何 使 用 一 个 字 贡 来 表 
示 甘 文字 母 。“ 校 对 ”是 指 一 组 用 于 某 个 字符 集 的 排序 规则 。MySQL 4.1 和 之 后 的 版 本 中 ， 
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每 一 类 编码 字符 都 有 其 对 应 的 字符 集 和 校对 规则 ?。MySQL 对 各 种 字符 集 的 支持 非常 完 
善 ， 但 是 这 也 带 来 了 一 定 的 复杂 性 ， 某 些 场景 下 其 至 会 有 一 定 的 性 能 辆 性 。( 另 外 ， 曾 
经 Drizzle 放弃 了 所 有 的 字符 集 ， 所 有 字符 全 部 统一 使 用 UTF-8。) 


本 市 将 解释 在 实际 使 用 中 ， 你 可 能 最 需要 的 一 些 设置 和 功能 。 如 果 想 了 解 更 多 细节 ， 可 
以 详细 地 阅读 MySQL 官方 手册 的 相关 章节 。 


7.9.1 MySQL 如 何 使 用 字符 集 

每 种 字符 集 都 可 能 有 多 种 校对 规则 ， 并 且 都 有 一 个 默认 的 校对 规则 。 每 个 校对 规则 都 是 
针对 某 个 特定 的 字符 集 的 ， 和 其 他 的 字符 集 没有 关系 。 校 对 规则 和 字符 集 总 是 一 起 使 用 
的 ， 所 以 后 面 我 们 将 这 样 的 组 合 也 统称 为 一 个 字符 集 。 


MySQL 有 很 多 的 选项 用 于 控制 字符 集 。 这 些 选 项 和 字符 集 很 容易 混淆 ， 一 定 要 记 住 : 
只 有 基于 字符 的 值 才 真正 的 “有 ”字符 集 的 概念 。 对 于 其 他 类 型 的 值 ， 字 符 集 只 是 一 个 
设置 ， 指 定 用 哪 一 种 字符 集 来 做 比较 或 者 其 他 操作 。 基 于 字符 的 值 能 存放 在 某 列 中 、 查 
询 的 字符 串 中 、 表 达 式 的 计算 结果 中 或 者 某 个 用 户 变量 中 ， 等 等 。 


MySQL 的 设置 可 以 分 为 两 类 : 创建 对 象 时 的 默认 值 、 在 服务 器 和 客户 端 通信 时 的 设置 。 
创建 对 象 时 的 默认 设置 

MySQL 服务 器 有 上 默认 的 字符 集 和 校对 规则 ， 每 个 数据 库 也 有 自己 的 默认 值 ， 每 个 表 也 
有 自己 的 默认 值 。 这 是 一 个 逐 层 继 承 的 默认 设置 ， 最 终 最 靠 底层 的 默认 设置 将 影响 你 创 
建 的 对 象 。 这 些 默认 值 ， 至 上 而 下 地 告诉 MySQL 应 该 使 用 什么 字符 集 来 存储 茶 个 列 。 
在 这 个 “阶梯 ” 的 每 一 层 , 你 都 可 以 指定 一 个 特定 的 字符 集 或 者 让 服务 器 使 用 它 的 默认 值 ; 


e。 创建 数据 库 的 时 候 ， 将 根据 服务 器 上 的 character set server 设置 来 设 定 该 数据 库 
的 默认 字符 集 。 

。 创建 表 的 时 候 ， 将 根据 数据 库 的 字符 集 设 置 指定 这 个 表 的 字符 集 设 置 。 

。 创建 列 的 时 候 ， 将 根据 表 的 设置 指定 列 的 字符 集 设 置 。 


需要 记 住 的 是 ， 真 正 存放 数据 的 是 列 ， 所 以 更 高 “阶梯 ”的 设置 只 是 指定 默认 值 。 一 个 
表 的 默认 字符 集 设置 无 法 影响 存储 在 这 个 表 中 某 个 列 的 值 。 只 有 当 创 建 列 而 没有 为 列 指 
定 字符 集 的 时 候 ， 如 果 没 有 指定 字符 集 ， 表 的 默认 字符 集 才 有 作用 。 


注 9: MySQL40 和 更 早 的 版 本 中 ， 如 果 设 置 服务 器 的 全 局 设置 ， 有 几 种 8 字 节 的 字符 集 可 以 选择 。 
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服务 器 和 客户 端 通信 时 的 设置 
当 服务 器 和 客户 端 通信 的 时 候 ， 它 们 可 能 使 用 不 同 的 字符 集 。 这 时 ， 服 务 器 端 将 进行 必 
要 的 翻译 转换 工作 : 


。 服务 器 端 总 是 假设 客户 端 是 按照 character_set_client 设置 的 字符 来 传输 数据 和 
SQL 语句 的 。 

© 当 服 务 器 收 到 客户 端的 SQL 语句 时 ， 它 先 将 其 转换 成 字符 集 character_set_ 
connection。 它 还 使 用 这 个 设置 来 决定 如 何 将 数据 转换 成 字符 串 。 

。 当 服 务 器 端 返回 数据 或 者 错误 信息 给 客户 端 时 ， 它 会 将 其 转换 成 character_set_ 


result, 


7-2 展示 了 这 个 过 程 。 


转换 为 character_set_connection | 


SQL 语句 ee : 


i it of l ; ae: 
i deh dee Ta, 语 i 
Datel Wiest L 4 ` (E: 


从 character_set_connection 转换 为 = : Be ， 


TD TT TT OES PACER ADSENSE Ee 





87-2: 客户 端 和 服务 器 的 字符 集 


根据 需要 ， 可 以 使 用 SET NAMES 或 者 SET CHARACTER SET 语句 来 改变 上 面 的 设置 。 不 过 
在 服务 器 上 使 用 这 个 命令 只 能 改变 服务 器 端的 设置 。 客 户 端 程序 和 客户 端的 API 也 需要 
使 用 正确 的 字符 集 才 能 避免 在 通信 时 出 现 问题 。 


假设 使 用 latinl FFR (这 是 默认 字符 集 ) 打开 一 个 连接 ， 并 使 用 SET NAMES utf8 来 
告诉 服务 器 客户 端 将 使 用 UTF-8 字符 集 来 传输 数据 。 这样 就 创建 了 一 个 不 匹配 的 字符 集 ， 
可 能 会 导致 一 些 错误 甚至 出 现 一 些 安全 性 问题 。 应 当先 设置 客户 端 字 符 集 然后 使 用 力 
数 mysql_real_escape_string() 在 需要 的 时 候 进 行 转 义 。 在 PHP 中 ， 可 以 使 用 mysqtL_ 
set_charset() 来 修改 客户 端的 字符 集 。 
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MySQL 如 何 比较 两 个 字符 串 的 大 小 

如 果 比 较 的 两 个 字符 串 的 字符 集 不 同 ，MySQL 会 先 将 其 转 成 同一 个 字符 集 再 进行 比较 。 
如 果 两 个 字符 集 不 兼容 的 话 ， 则 会 抛 出 错误 ， 例 如 “ERROR 1267(HY000):Illegal mix 
of collations 。 这 种 情况 下 需要 通过 国 数 CONVERT() 显 式 地 将 其 中 一 个 字符 串 的 字符 
集 转 成 一 个 兼容 的 字符 集 。MYySQL 5.0 和 更 新 的 版 本 经 常会 做 这 样 的 隐 式 转换 ， 所 以 这 
类 错误 通常 是 在 MySQL 4.1 中 比较 常见 。 

MySQL 还 会 为 每 个 字符 串 设 置 一 个 “可 转换 性 ="。 这 个 设置 决定 了 值 的 字符 集 的 优先 
级 ， 因 而 会 影响 MySQL 做 字符 集 隐 式 转换 后 的 值 。 另 外 ， 也 可 以 使 用 函数 CHARSET ()、 
COLLATION()、 和 COERCIBILITY() 来 定位 各 种 字符 集 相 关 的 错误 。 

还 可 以 使 用 前 缀 和 COLLATE 子 句 来 指定 字符 串 的 字符 集 或 者 校对 字符 集 。 例 如 ， 下 面 的 
示例 中 使 用 了 前 级 (由 下 夯 线 开始 ) 来 指定 utf8 字符 集 ， 还 使 用 了 COLLATE 子 句 指定 了 
使 用 二 进 制 校对 规则 : 


mysql> SELECT utf8 ‘hello world’ COLLATE utf8 bin; 


+-------------------------------------- + 

| _utf8 ‘hello world’ COLLATE utf8 bin | 

+-------------------------------------- + 

| hello world | 

+-------------------------------------- + 
一 些 特殊 情况 


MySQL 的 字符 集 行为 中 还 是 有 一 些 隐 藏 的 惊喜 的 。 下 面 列 举 了 一 些 需要 注意 的 地 方 : 


旋 异 的 character_set database 设置 
character_set_database 设置 的 默认 值 和 默认 数据 库 的 设置 相同 。 当 改变 默认 数据 
库 的 时 候 ， 这 个 变量 也 会 跟着 变 。 所 以 当 连 接 到 MySQL 实例 上 又 没有 指定 要 使 用 
的 数据 库 时 ， 默 认 值 会 和 character set server 相同。 

LOAD DATA INFILE | 
当 使 用 LOAD DATA INFILE 的 时 候 ， 数 据 库 总 是 将 文件 中 的 字符 按照 字符 集 character. 
set_database 来 解析 。 在 MySQL 5.0 和 更 新 的 版 本 中 ， 可 以 在 LOAD DATA INFILE 
中 使 用 子 句 CHARACTER SET 来 设 定 字符 集 ， 不 过 最 好 不 要 依赖 这 个 设 定 。 我 们 发 现 
指定 字符 集 最 好 的 方式 是 先 使 用 USE 指定 数据 库 ， 再 执行 SET NAMES 来 设 定 字符 集 ， 
最 后 再 加 载 数据 。 MySQL 在 加 载 数据 的 时 候 ， 总 是 以 同样 的 字符 集 处 理 所 有 数据 ， 
而 不 管 表 中 的 列 是 否 有 不 同 的 字符 集 设 定 。 

SELECT INTO OUTFILE 
MySQL 会 将 SELECT INTO OUTFILE 的 结果 不 做 任何 转 码 地 写 和 文件。 目前 ， 除 了 使 


注 10: coercibility() 函数 的 返回 值 。 一 一 译 者 注 
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用 函数 CONVERT () 将 所 有 的 列 都 做 一 次 转 码 外 ， 还 没有 什么 别 的 办 法 能 够 指定 输出 
的 字符 集 。 

RA AR LAPS 
MySQL 会 根据 character_set_client 的 设置 来 解析 转 义 序 列 ， 即 使 是 字符 串 中 包 
含 前 缀 或 者 COLLATE 子 句 也 一 样 。 这 是 因为 解析 器 在 处 理 字 符 串 中 的 转 义 字符 时 ， 
完全 不 关心 校对 规则 一 一 对 解析 器 来 说 ， 前 缀 并 不 是 一 个 指令 ， 它 只 是 一 个 关键 字 
而 已 。 


7.9.2 选择 字符 集 和 校对 规则 

MySQL 4.1 和 之 后 的 版 本 支持 很 多 的 字符 集 和 校对 规则 ， 包 括 支 持 使 用 Unicode 编码 的 
多 字 节 UTF-8 FE (MySQL 支持 UTF-8 的 一 个 三 字 节 子 集 ， 这 几乎 可 以 包含 世界 上 
的 所 有 字符 集 )。 可 以 使 用 命令 SHOW CHARACTERSET 和 SHOW COLLATION 来 查看 MySQL 
支持 的 字符 集 和 校对 规则 。 


极 简 原则 
在 一 个 数据 库 中 使 用 多 个 不 同 的 字符 集 是 一 件 很 让 人 头疼 的 事情 ， 字 符 集 之 间 的 不 
兼容 问题 会 很 难 强 。 有 时 候 , 一 切 都 看 起 来 正常 ,但 是 当 某 个 特殊 字符 出 现 的 时 候 ， 
所 有 类 型 的 操作 都 可 能 会 无 法 进行 (例如 多 表 之 间 的 关联 )。 你 可 以 使 用 ALTER 


TABLE 命令 将 对 应 列 转 成 相互 兼容 的 字符 集 ， 还 可 以 使 用 编码 前 级 和 COLLATE F 4) 
将 对 应 的 列 值 转 成 兼容 的 编码 。 


正确 的 方法 是 ， 最 好 先 为 服务 器 (或 者 数据 库 ) 选择 一 个 合理 的 字符 集 。 然 后 根据 
不 同 的 实际 情况 ， 让 某 些 列 选择 合适 的 字符 集 。 


对 于 校对 规则 通常 需要 考虑 的 一 个 问题 是 ， 是 否 以 大 小 写 敏感 的 方式 比较 字符 早 ， 或 者 
是 以 字符 串 编 码 的 二 进 制 值 来 比较 大 小 。 它 们 对 应 的 校对 规则 的 前 缀 分 别 是 _cs、_ci 和 


_bin， 根 据 需 要 很 容易 选择 。 大 小 写 敏感 和 二 进 制 校对 规则 的 不 同 之 处 在 于 ， 二 进 制 校 


对 规则 直接 使 用 字符 的 字 节 进行 比较 ， 而 大 小 写 敏 感 的 校对 规则 在 多 字 节 字符 集 时 ， 如 
德语 ， 有 更 复杂 的 比较 规则 。 


在 显 式 设置 字符 集 的 时 候 ， 并 不 是 必须 同时 指定 字符 集 和 校对 规则 的 名 字 。 如 果 缺 失 了 
其 中 一 个 或 者 两 个 ，MySQL 会 使 用 可 能 的 默认 值 来 进行 填充 。 表 7-2 表示 了 MySQL 如 
何 选择 字符 集 和 校对 规则 。 
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表 7-2: MySQL 如 何 选择 字符 集 和 校对 规则 


用 户 设 置 一 返回 结果 的 字符 集 ”返回 结果 的 校对 规则 

同时 设置 字符 集 和 校对 规则 ”与 用 户 设置 相同 与 用 户 设置 相同 

仅 设置 字符 集 与 用 户 设置 相同 与 字符 集 的 默认 校对 规则 相同 
仅 设置 校对 规则 与 校对 规则 对 应 的 字符 集 相同 。 与 用 户 设置 相同 

都 未 设置 使 用 默认 值 使 用 默认 值 


下 面 的 命令 展示 了 在 创建 数据 库 、 表 、 列 的 时 候 如 何 显 式 地 指定 字符 集 和 校对 规则 : 


CREATE DATABASE d CHARSET latin1; 
CREATE TABLE d.t( 

col1 CHAR(1), 

col2 CHAR(1) CHARSET utf8, 

col3 CHAR(1) COLLATE latin1 bin 
) DEFAULT CHARSET=cp1251; 


这 个 表 最 后 的 字符 集 和 校对 规则 如 下 : 


mysql> SHOW FULL COLUMNS FROM d.t; 

+------ +--------- +------------------- 十 
|Field | Type | Collation | 
$------ +--------- +------------------- 十 
|col1 | char(1) | cp1251 general ci | 
|col2 | char(1) | utf8 general ci | 
|col3 | char(1) | latin1 bin | 
+------ +--------- +------------------- + 


7.9.3 字符 集 和 校对 规则 如 何 影响 查询 
某 些 字符 集 和 校对 规则 可 能 会 需要 更 多 的 CPU 操作 ,可 能 会 消耗 更 多 的 内 存 和 存储 空间 ， 
甚至 还 会 影响 索引 的 正常 使 用 。 所 以 在 选择 字符 集 的 时 候 ， 也 有 一 些 需 要 注意 的 地 方 。 


不 同 的 字符 集 和 校对 规则 之 间 的 转换 可 能 会 带 来 额外 的 系统 开销 。 例 如 ， 数 据 表 
sakila.film 在 列 title 上 有 索引 ， 可 以 加 速 下 面 的 ORDER BY 查询 : 


mysql> EXPLAIN SELECT title, release_year FROM sakila.film ORDER BY title\G 
ARR AR A AR ARR KARR RAK 1 。 了 OW RRR a RR OR OR EE k k k k k KK 
id: 1 
select_type: SIMPLE 
table: film 
type: index 
possible keys: NULL 
key: idx_title 
key_len: 767 
ref: NULL 
rows: 953 
Extra: 
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只 有 排序 查询 要 求 的 字符 集 与 服务 器 数据 的 字符 集 相同 的 时 候 ， 才 能 使 用 索引 进行 排序 。 
索引 根据 数据 列 的 校对 规则 和 " 进行 排序 ， 这 里 使 用 的 是 utf8_general_ci。 如 果 希 望 使 
用 别 的 校对 规则 进行 排序 ， 那 么 MySQL 就 需要 使 用 文件 排序 : 


mysql> EXPLAIN SELECT title, release_year 


-> FROM sakila.film ORDER BY title COLLATE utf8_bin\G 
KAKAKKAK KAR KKK KAKKKAKKKEKK 1 row A A Ke OK KE A RK KK KK KK kkk 


id: 1 
select_type: SIMPLE 
table: film 
type: ALL 
possible keys: NULL 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 953 
Extra: Using filesort 


为 了 能 够 适应 各 种 字符 集 ， 包 括 客户 端 字符 集 、 在 查询 中 显 式 指定 的 字符 集 ，MySQL 
会 在 需要 的 时 候 进 行 字符 集 转换 。 例 如 ， 当 使 用 两 个 字符 集 不 同 的 列 来 关联 两 个 表 的 时 
候 ，MySQL 会 尝试 转换 其 中 一 个 列 的 字符 集 。 这 和 在 数据 列 外 面 封装 一 个 国 数 一 样 ， 
会 让 MySQL 无 法 使 用 这 个 列 上 的 索引 。 如 果 你 不 确定 MySQL 内 部 是 否 做 了 这 种 转换 ， 
可 以 在 EXPLAIN EXTENDED 后 使 用 SHOW WARNINGS 来 查看 MySQL 是 如 何 处 理 的 。 从 输出 
中 可 以 看 到 查询 中 使 用 的 字符 集 ， 也 可 以 看 出 MySQL 是 否 做 了 字符 集 转换 操作 。 


UTF-8 是 一 种 多 字 节 编码 ， 它 存储 一 个 字符 会 使 用 变 长 的 字 节 数 (一 到 三 个 字 市 )。 在 
MySQL 内 部 ， 通 常 使 用 一 个 定 长 的 空间 来 存储 字符 串 ， 再 进行 相关 操作 ， 这 样 做 的 
目的 是 希望 总 是 保证 缓存 中 有 足够 的 空间 来 存储 字符 串 。 例 如 ， 一 个 编码 是 UTF-8 的 
CHAR(10) 需要 30 个 字 节 ， 即 使 最 终 存储 的 时 候 没 有 存储 任何 “多 字 市 ”字符 也 是 一 样 。 
变 长 的 字段 类 型 (VARCHAR TEXT) 存储 在 磁盘 上 时 不 会 有 这 个 困扰 ， 但 当 它 存储 在 临时 
表 中 用 来 处 理 或 者 排序 时 ， 也 总 是 会 分 配 最 大 可 能 的 长 度 。 


在 多 字 节 字符 集中 ， 一 个 字符 不 再 是 一 个 字 记 。 所 以 ， 在 MySQL 中 有 两 个 图 数 
LENGTH() 和 CHAR_LENGTH() 来 计算 字符 串 的 长 度 ， 在 多 字 节 字符 集中 ， 这 两 个 函数 的 返 
回 结果 会 不 同 。 如 果 使 用 的 是 多 字 节 字符 集 ， 那 么 确保 在 统计 字符 集 的 时 候 使 用 CHAR 
LENGTH ( ) 。 (例如 需要 做 SUBSTRING() 操作 的 时 候 ) 。 其 实 ， 在 应 用 程序 中 也 同样 要 注意 
多 字 节 字符 集 的 这 个 问题 。 


另 一 个 “惊喜 ”可 能 是 关于 索引 限制 方面 的 。 如 果 要 索引 一 个 UTF-8 字符 集 的 列 ， 
MySQL 会 假设 每 一 个 字符 都 是 三 个 字 节 ， 所 以 最 长 索引 前 缀 的 限制 一 下 缩短 到 原来 的 


注 11 : 即 排序 规则 。 一 一 译 者 注 
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mysql> CREATE TABLE big string(str VARCHAR(500), KEY(str)) DEFAULT CHARSET=utf8; 
Query OK, 0 rows affected, 1 warning (0.06 sec) 
ya SHOW WARNINGS; 


--------- +------+---------------------------------------------------------+ 
| Level | Code | Message | 
+--------- +------ +--------------------------------------------------------- + 
| Warning | 1071 | Specified key was too long; max key length is 999 bytes | 
ee 十 = 一 一 一 一 一 十 =- 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 = 一 一 一 = 一 一 ”~ 一 = 一 一 一 一 一 十 


注意 到 ，MySQL 的 索引 前 级 自动 缩短 到 333 个 字符 了 : 


mysql> SHOW CREATE TABLE big string\G 
玉米 水 六 六 六 六 六 六 六 六 六 六 六 冰冰 六 六 六 六 六 六 六 六 六 六 六 了 roy Pook kkk 


Table: big string 
Create Table: CREATE TABLE ‘big string” ( 
‘str varchar(500) default NULL, 
KEY ‘str’ (‘str (333)) 
) ENGINE=MyISAM DEFAULT CHARSET=utf8 
如 有 果 你 不 注意 警告 信息 也 没有 再 重新 检查 表 的 定义 ， 可 能 不 会 注意 到 这 里 仅仅 是 在 该 列 
的 前 级 上 建立 了 索引 。 这 会 对 MySQL 使 用 索引 有 一 些 影响 ,例如 无 法 使 用 索引 覆盖 扫描 。 


也 有 人 建议 ， 直 接 使 用 UTF-8 字符 集 ,“ 整 个 世界 都 清净 了 ”。 不 过 从 性 能 的 角度 来 看 
这 不 是 一 个 好 主意 。 根 据 存 储 的 数据 ， A UTF-8 字符 集 ， 如 果 坚 持 使 用 
UTF-8， 只 会 消耗 更 多 的 磁盘 空间 。 


在 考虑 使 用 什么 字符 集 的 时 候 ， 需 要 根据 存储 的 具体 内 存 来 决定 。 例 如 ， 存 储 的 内 容 
主要 是 英文 字符 ， 那 么 即使 使 用 UTF-8 也 不 会 消耗 太 多 的 存储 空间 ， 因 为 英文 字符 在 
UTF-8 字符 集中 仍然 使 用 一 个 字 节 。 但 如 果 需 要 存储 一 些 非 拉丁 语系 的 字符 ， 如 俄语 、 
阿拉 伯 语 ， 那 么 区 别 会 很 大 。 如 果 应 用 中 只 需要 存储 阿拉 伯 语 ， 那 么 可 以 使 用 cp1256 
字符 集 ， 这 个 字符 集 可 以 用 一 个 字 节 表示 所 有 的 阿拉 伯 语 字符 。 如 果 还 需要 存储 别 的 语 
言 ， 那 么 就 应 该 使 用 UTF-8 了 ， 这 时 相同 的 阿拉 伯 语 字符 会 消耗 更 多 的 空间 。 类 似 地 ， 
当 从 某 个 具体 的 语种 编码 转换 成 UTF-8 时 ， 存 储 空间 的 使 用 会 相应 增加 。 如 果 使 用 的 是 
InnoDB 表 ， 那么 字符 集 的 改变 可 能 导致 数据 的 和 小 超过 可 以 在 页 内 存储 的 临界 值 ， 

要 保存 在 额外 的 外 部 存储 区 ， 这 会 导致 很 严重 的 空间 浪费 ， 还 会 带 来 很 多 空间 碎片 。 


有 时 候 根 本 不 需要 使 用 任何 的 字符 集 。 通 常 只 有 在 做 大 小 写 无 关 的 比较 、 排 序 、 字 符 串 
操作 (例如 SUBSTRING ( ) 的 时 候 才 需要 使 用 字符 集 。 如 果 你 的 数据 库 不 关心 字符 集 ， 那 
么 可 以 直接 将 所 有 的 东西 存储 到 二 进 制 列 中 ， 包 括 UTF-8 编码 数据 也 可 以 存储 在 其 中 。 


这 么 做 ， 可 能 还 需要 一 个 列 记 录 字 符 的 编码 集 。 虽 然 很 多 人 一 直 都 是 这 么 用 的 ， 但 还 是 


有 不 少 事项 需要 注意 。 这 会 导致 很 多 难以 排查 的 错误 ， 例如， 忘记 了 多 个 字 市 才 是 一 
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字符 时 ， 还 继续 使 用 SUBSTRING() 和 LENGTH() 做 字符 串 操 作 ， 就 会 出 错 。 如 果 可 能 ， 我 
们 建议 尽量 不 要 这 样 做 。 


7.10 全 文 索 引 


通过 数值 比较 、 范 围 过 滤 等 就 可 以 完成 绝 大 多 数 我 们 需要 的 查询 了。 但 是 ， 如 采 你 锅 望 
通过 关键 字 的 匹配 来 进行 查询 过 炙 ， 那 么 就 需要 基于 相似 度 的 查询 ， 而 不 是 原来 的 精确 
数值 比较 。 全 文 索引 就 是 为 这 种 场景 设计 的 。 


全 文 索引 有 着 自己 独特 的 语法 。 没 有 索引 也 可 以 工作 ， 如 果 有 索引 效率 会 更 高 。 用 于 全 
文 搜索 的 索引 有 着 独特 的 结构 ， 帮 助 这 类 查询 找到 匹配 某 些 关键 字 的 记录 。 


你 可 能 没有 在 意 过 全 文 索引 ， 不 过 至 少 应 该 对 一 种 例文 索引 技术 比较 熟悉 : 互联 网 搜索 
引擎 。 虽 然 这 类 搜索 引擎 的 索引 对 象 是 超大 量 的 数据 ， 并 且 通 常 其 背后 都 不 是 关系 型 数 
据 库 ， 不 过 全 文 索引 的 基本 原理 都 是 一 样 的 。 


全 文 索 引 可 以 支持 各 种 字符 内 容 的 搜索 (包括 CHAR, VARCHAR 和 TEXT 类 型 )， 也 支持 自 
然 语言 搜索 和 布尔 搜索 。 在 MySQL 中 全 文 索引 有 很 多 的 限制 二 ”*， 其 实现 也 很 复杂 ,但 
是 因为 它 是 MySQL 内 置 的 功能 ， 而 且 满 足 很 多 基本 的 搜索 需求 ， 所 以 它 的 应 用 仍然 非 
常 广泛 。 本 章 我 们 将 介绍 如 何 使 用 全 文 索 引 ， 以 及 如 何 为 应 用 设计 更 高 性 能 的 全 文 索引 。 


在 本 书 编 写 时 ， 在 标准 的 MySQL 中 ， 只 有 MyISAM 引擎 支持 全 文 索 引 。 不 过 在 还 没有 
正式 发 布 的 MySQL 5.6 F, InnoDB 已 经 实验 性 质地 支持 全 文 索 引 了 。 除 此 ， 还 有 第 三 
方 的 存储 引擎 ， 如 Groonga， 也 支持 全 文 索引 。 


FKE, MyISAM 对 全 文 索引 的 支持 有 很 多 的 限制 ， 例 如 表 级 别 锁 对 性 能 的 影响 、 数 据 
SOCCER Ann. ARTA SS, 这 使 得 MyISAM 的 全 文 索引 对 于 很 多 应 用 场景 并 不 合适 。 
所 以 ， 多 数 情 况 下 我 们 建议 使 用 别 的 解决 方案 ， 例 如 Sphinx、Lucene、Solr、Groonga、 
Xapian 或 者 Senna， 再 或 者 可 以 等 MySQL 5.6 版 本 正式 发 布 后 ， 直 接 使 用 InnoDB 的 全 
文 索引 。 如 果 MyISAM 的 全 文 索引 确实 能 满足 应 用 的 需求 ， 那 么 可 以 继续 阅读 本 节 。 


MyISAM 的 全 文 索 引 作 用 对 象 是 一 个 “全 文集 合 " ， 这 可 能 是 某 个 数据 表 的 一 列 ， 也 可 
能 是 多 个 列 。 具 体 的 ， 对 数据 表 的 某 一 条 记录 ，MySQL 会 将 需要 索引 的 列 全 部 拼接 成 
一 个 字符 串 ， 然 后 进行 索引 。 


注 12: 在 MySQL 5.1 中 ， 可 以 使 用 全 文 解 析 器 插件 来 扩展 全 文 索引 的 功能 。 不 过 ，MYySQL 的 全 文 索引 
本 身 还 是 有 很 多 限制 的 ， 可 能 导致 无 法 在 你 的 应 用 场景 中 使 用 。 我 们 将 在 附录 下 中 介绍 如 何 将 
Sphinx 作为 一 个 MySQL 内 部 搜索 引 学 来 使 用 。 
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MyISAM 的 全 文 索引 是 一 类 特殊 的 B-Tree 索引 ， 共 有 两 层 。 第 一 层 是 所 有 关键 字 ， 然 
后 对 于 每 一 个 关键 字 的 第 二 层 ， 包 含 的 是 一 组 相关 的 “文档 指针 ”。 全 文 索引 不 会 索引 
文档 对 象 中 的 所 有 词语 ， 它 会 根据 如 下 规则 过 滤 一 些 词 语 : 


。 停 用 词 列表 中 的 词 都 不 会 被 索引 。 上 默认 的 停 用 词根 据 通用 英语 的 使 用 来 设置 ， 可 以 
使 用 参数 ft_stopword file 指定 一 组 外 部 文件 来 使 用 自 定 义 的 停 用 词 。 

e 对 于 长 度 大 于 ft_min_word len 的 词语 和 长 度 小 于 ft_max_word_len 的 词语 ， 都 不 
会 被 索引 。 


全 文 索引 并 不 会 存储 关键 字 具 体 匹 配 在 哪 一 列 ， 如 果 需 要 根据 不 同 的 列 来 进行 组 合 查询 ， 
那么 不 需要 针对 每 一 列 来 建立 多 个 这 类 索引 。 


这 也 意味 着 不 能 在 MATCH AGAINST 子 句 中 指定 哪个 列 的 相关 性 更 重要 。 通 常 构 建 一 个 网 
站 的 搜索 引擎 是 需要 这 样 的 功能 ， 例 如 ， 你 可 能 希望 优先 搜索 出 那些 在 标题 中 出 现 过 的 
文档 对 象 。 如 果 需 要 这 样 的 功能 ， 则 需要 编写 更 复杂 的 查询 语句 。( 后 面 将 会 为 大 家 展 
示 如 何 实现 。) 


7.10.1 上 自然 语言 的 全 文 索引 


自然 语言 搜索 引擎 将 计算 每 一 个 文档 对 象 和 查询 的 相关 度 。 这 里 ， 相 关 度 是 基于 匹配 的 
关键 词 个 数 ， 以 及 关键 词 在 文档 中 出 现 的 次 数 。 在 整个 索引 中 出 现 次 数 越 少 的 词语 ， 匹 
配 时 的 相关 度 就 越 高 。 相 反 ， 非 常常 见 的 单词 将 不 会 搜索 ， 即 使 不 在 停 用 词 列 表 中 出 
现 ， 如 果 一 个 词语 在 超过 50% 的 记录 中 都 出 现 了 ， 那 么 自然 语言 搜索 将 不 会 搜索 这 类 词 


$ 13 
i. * 


全 文 索引 的 语法 和 普通 查询 略 有 不 同 。 可 以 根据 WHERE 子 句 中 的 MATCH AGAINST 来 区 分 
查询 是 否 使 用 全 文 索 引 。 我 们 来 看 一 个 示例 。 在 标准 的 数据 库 Sakila 中 ， 数 据 表 film 
text 在 字段 title 和 description 上 建立 了 全 文 索引 : 


asa SHOW nee FROM sakila.film_ at 
-----------+-----------------------+------------- +------------+ 

| Table | Key_name | Column_name | Index type | 

+----------- +----------------------- +------------- +------------ + 

ee 

| film text | idx title description | title | FULLTEXT | ‘ 
| film | text | idx_ title description | description | FULLTEXT | 

+----------- +-----------------------+-------------+------------ + 


注 13 : 在 测试 使 用 时 的 一 个 常见 错误 就 是 , 只 是 用 很 小 的 数据 集合 进行 全 文 索引 ,所 以 总 是 无 法 返回 结果 。 
原因 在 于 ， 每 个 搜索 关键 词 部 可 能 在 一 半 以 上 的 记录 里 面 出 现 过 。 
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下 面 是 一 个 使 用 自然 语言 搜索 的 查询 : 


mysql> SELECT film id, title, RIGHT(description, 25), 
-> | MATCH(title, description) AGAINST('factory casualties’) AS relevance 
-> FROM sakila.film_text 
-> mele MATCH(title, see ption AGAINST(' factory cea ) ; 


+---------+-----------------------+---------------------------+----------------- 十 
| film id | title | RIGHT(description, 25) | relevance | 
+--------- +-----------------------+--------------------------- +----------------- + 
| 831 | SPIRITED CASUALTIES | a Car in A Baloon Factory | 8.4692449569702 | 
| 126 | CASUALTIES ENCINO | Face a Boy in A Monastery | 5.2615661621094 | 
| 193 | CROSSROADS CASUALTIES | a Composer in The Outback | 5.2072987556458 | 
| 369 | GOODFELLAS SALUTE | d Cow in A Baloon. Factory | 3.1522686481476 | 
| 451 | IGBY MAKER | a Dog in A Baloon Factory | 3.1522686481476 | 


MySQL 将 搜索 词语 分 成 两 个 独立 的 关键 词 进行 搜索 ， 搜 索 在 titlef description+ 

段 组 成 的 全 文 索引 上 进行 。 注 意 ， 只 有 一 条 记录 同时 包含 全 部 的 两 个 关键 词 ， 有 三 个 碍 

雪 果 只 包含 关键 字 “casualties”( 这 是 整个 表 中 仅 有 的 三 条 包含 该 关键 词 的 记录 ) ， 这 三 
结果 都 在 结 gee aL 这 是 因为 查询 结果 是 根据 与 关键 词 的 相似 度 来 进行 排序 的 。 


vw a, 

PE aA, KREW A ARRESE. ERR CRS LE TAPE 
d. BHE, MySQL 无 法 再 使 用 索引 排序 。 所 以 如 果 不 想 使 用 文件 排序 的 话 ， 那 么 就 不 

3， 要 在 查询 中 使 用 ORDER BY 子 句 。 






从 上 面 的 示例 可 以 看 到 ， 函 数 MATCH ( ) 将 返回 关键 词 匹 配 的 相关 度 ， 是 一 个 浮上 后 数 
字 。 你 可 以 根据 相关 度 进行 匹配 ， 或 者 将 此 直接 展现 给 用 户 。 在 一 个 查询 中 使 用 两 次 
MATCH() 函数 并 不 会 有 额外 的 消耗 ，MySQL 会 自动 识别 并 只 进行 一 次 搜索 。 不 过 ， 如 采 
你 将 MATCH() 函数 放 到 ORDER BY 子 句 中 ，MySQL 将 会 使 用 文件 排序 。 


在 MATCH() 函数 中 指定 的 列 必 须 和 在 全 文 索引 中 指定 的 列 完全 相同 ， 否 则 就 无 法 使 用 全 
文 索引 。 这 是 因为 全 文 索引 不 会 记录 关键 字 是 来 自 哪 一 列 的 。 


这 也 意味 着 无 法 使 用 全 文 索 引 来 查询 某 个 关键 字 是 否 在 某 一 列 中 存在 。 这 里 介绍 一 个 统 
过 该 问题 的 办 法 : 根据 关键 词 在 多 个 不 同 列 的 全 文 索引 上 的 相关 度 来 算出 排名 值 ， 然 后 
依 此 来 排序 。 我 们 可 以 在 某 一 列 上 加 上 如 下 索引 : 


mysql> ALTER TABLE film text ADD FULLTEXT KEY(title) ; 


这 样 ， 我 们 可 以 将 title 匹配 乘 以 2 来 提高 它 的 相似 度 的 权重 : 
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mysql> SELECT film_id, RIGHT(description, 25), ; 
-> ROUND(MATCH(title, description) AGAINST('factory casualties’), 3) 
-> AS full rel, 
-> ROUND(MATCH(title) AGAINST('factory casualties’), 3) AS title.rel 
-> FROM sakila.film_text 
-> WHERE MATCH(title, description) AGAINST(' factory casualties’ ) 
-> ORDER BY (2 * MATCH(title) AGAINST('factory casualties’ )) 
-> + E description) OE casualties’) DESC; 


+---------+---------------------------+----------+----------- + 
| film id | RIGHT(description, 25) | full rel | title rel | 
+--------- +-------------- ------------ +----------+----------- + 
| 831 | a Car in A Baloon Factory | 8.469 | 5.676 | 
| 126 | Face a Boy in A Monastery | 5.262 | 5.676 | 
| 299 | jack in The Sahara Desert | 3.056 | 6.751 | 
| 193 | a Composer in The Outback | 5.207 | 5.676 | 
| 369 | d Cow in A Baloon Factory | 3.152 | 0.000 | 
| 451 | a Dog in A Baloon Factory | 3.152 | 0.000 | 
| 595 | a Cat in A Baloon Factory | 3.152 | 0.000 | 
| 649 | nizer in A Baloon Factory | 3.152 | 0.000 | 


”因为 上 面 的 查询 需要 做 文件 排序 ， 所 以 这 并 不 是 一 个 高 效 的 做 法 。 


7.10.2 布尔 全 文 索引 


在 布尔 搜索 中 ， 用 户 可 以 在 查询 中 自 定义 某 个 被 搜索 的 词语 的 相关 性 。 布 尔 搜索 通过 停 
用 词 列表 过 滤 掉 那些 “噪声 ” 词 ， 除 此 之 外 ， 布 尔 搜索 还 要 求 搜索 关键 词 长 度 必须 大 于 
ft_min word Len， 同时 小 于 ft_max_word len 生 “。 搜 索 返 回 的 结果 是 未 经 排序 的 。 


当 编 写 一 个 布尔 搜索 查询 时 ， 可 以 通过 一 些 前 缀 修饰 符 来 定制 搜索 。 表 7-3 列 出 了 最 常 
用 的 修饰 符 。 


表 7-3: 布尔 全 文 索 引 通 用 修饰 符 

Example Meaning 

dinosaur 包含 “dinosaur” 的 行 rank 值 更 高 
~dinosaur ”包含 “dinosaur” 的 行 rank 值 更 低 
+dinosaur 行 记录 必须 包含 “dinosaur” 

-dinosaur 行 记录 不 可 以 包含“dinosaur” 

dino* ”包含 以 “dino ”开头 的 单词 的 行 rank EES 


还 可 以 使 用 其 他 的 操作 ,例如 使 用 括号 分 组 。 基 于 此 ,就 可 以 构造 出 一 些 复杂 的 搜索 查询 。 


不 是 继续 用 sakila.film text 来 举例 ， 现 在 我 们 需要 搜索 既 包 含 词 “factory” 又 包含 
“casualties” 的 记录 。 在 前 面 ， 我 们 已 经 使 用 自然 语言 搜索 查询 实现 找到 这 两 个 词 中 的 


注 14 : 事实 上 ， 全 文 索引 根本 不 会 对 太 短 或 者 太 长 的 词语 进行 索引 ， 但 是 这 里 说 的 不 是 一 回 事 。 一 般 地 ， 
MySQL 本 身 并 不 会 因为 搜索 关键 词 过 长 或 过 短 而 忽略 这 些 词语 ， 但 是 查询 优化 器 的 某 些 部 分 却 可 
能 这 样 做 。 
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任何 一 个 的 SQL 写法 。 使 用 布尔 搜索 查询 ,我们 可 以 指定 返回 结果 必须 同时 包含 factory 


F0 “casualties” : 


mysql> SELECT film_id, title, RIGHT(description, 25) 
-> FROM sakila.film_text 
-> WHERE MATCH(title, description) 
-> AGAINST('+factory a IN BOOLEAN MODE); 


+--------- +---------------------+--------------------------- + 
| film id | title | RIGHT(description, 25) | 
+--------- +--------------------- +--------------------------- + 
| 831 | SPIRITED CASUALTIES | a Car in A Baloon Factory | 
+--------- +--------------------- +--------------------------- 


查询 中 还 可 以 使 用 括号 进行 “短语 搜索 ， 让 返回 结果 精确 匹配 指定 的 短语 : 


mysql> SELECT film id, title, RIGHT(description, 25) 
-> FROM sakila.film text 
-> WHERE MATCH(title, description) 
-> RE "spirited sara IN BOOLEAN MODE); 


+---------+---------------------+--------------------------- + 
| film id | title i RIGHT (description, 25) | 
+--------- +--------------------- +--------------------------- + 
| 831 | SPIRITED CASUALTIES | a Car in A Baloon Factory | 
+--------- +--------------------- +--------------------------- 


短语 搜索 的 速度 会 比较 慢 。 只 使 用 全 文 索引 是 无 法 判断 是 否 精确 匹配 短语 的 ， 通 币 还 需 
要 查询 原文 确定 记录 中 是 否 包 含 完 整 的 短语 。 由 于 需要 进行 回 表 过 滤 ， 所 以 速度 会 很 慢 。 


要 完成 上 面 的 查询 , MySQL 需要 先 从 索引 中 找 出 所 有 同时 包含 “spirited” 和 “casualties 
的 索引 条 目 ， 然 后 取出 这 些 记录 再 判断 是 否 是 精确 匹配 短语 。 因 为 这 个 操作 会 先 从 索引 
中 过 滤 出 一 些 记录 ， 所 以 通常 认为 这 样 做 的 速度 是 很 快 的 一 一 比 LIKE 操作 要 快 很 多 。 
”事实 上 ， 这 样 做 的 确 很 快 ， 但 是 搜索 的 关键 词 不 能 是 太 常见 的 词语 。 如 末 搜 索 的 关键 词 
太 常 见 ， 因 为 前 一 步 的 过 滤 会 返回 太 多 的 记录 需要 判断 ， 因 此 LIKE 操作 反而 更 快 。 这 种 
情况 下 LIKE 操作 是 完全 的 顺序 读 ， 相 比索 引 返 回 值 的 随机 读 ， 会 快 很 多 。 


只 有 MyISAM 引擎 才 能 使 用 布尔 全 文 索 3 引 ， 但 并 不 是 一 定 要 有 全 文 索引 才能 使 用 布尔 全 
文 搜索 。 当 没有 全 文 索 引 的 时 候 ，MySQL 就 通过 全 表 扫 描 来 实现 。 所 以 ， 你 其 至 还 可 

以 在 多 表 上 使 用 布尔 全 文 索引 ， 例 如 在 一 个 关联 结果 上 进行 。 只 不 过 ， 因 为 是 全 表 扫 描 ， 

速度 可 能 会 很 慢 。 


7.10.3 MySQL 5.1 中 全 文 索引 的 变化 


在 MySQL 5.1 中 引入 了 一 些 和 全 文 索 引 相关 的 改进 ， 包 插 一 些 性 能 上 的 提升 和 新 增 插件 
式 的 解析 ， 通 过 此 用 户 可 以 自己 定制 增强 搜索 功能 。 例 如 ， 插 件 可 以 改变 索引 文本 的 方 
式 。 可 以 用 更 灵活 的 方式 进行 分 词 (例如 , 可 以 指定 C++ 作为 一 个 单独 的 词语 )、 预 处 理 、 
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可 以 对 不 同 的 文档 类 型 进行 索引 (如 PDF)， 还 可 以 做 一 些 自 定义 的 词 千 规则 。 播 件 还 
可 以 直接 影响 全 文 搜索 的 工作 方式 一 一 例如 ， 直 接 使 用 词 干 进行 搜索 。 


7.10.4 全 文 索引 的 限制 和 和 蔡 代 方案 
MySQL 的 全 文 索 引 实 现 有 很 多 的 设计 本 身 吾 来 的 限制 。 在 某 些 场景 下 这 些 限制 是 致命 
的 ， 不 过 也 有 很 多 办 法 绕 过 这 些 限 制 。 


例如 ，MySQL 全 文 索引 中 只 有 一 种 判断 相关 性 的 方法 : 词 频 。 索 引 也 不 会 记录 索引 词 
在 字符 串 中 的 位 置 ， 所 以 位 置 也 就 无 法 用 在 相关 性 上 。 虽 然 大 多 数 情况 下 ， 尤 其 是 数据 
量 很 小 的 时 候 ， 这 些 限制 都 不 会 影响 使 用 ， 但 也 可 能 不 是 你 所 想 要 的 。 而 且 MySQL 的 
全 文 索 引 也 没有 提供 其 他 可 选 的 相关 性 排序 算法 。( 它 无 法 存储 基于 相对 位 置 的 相关 性 
排序 数据 。) 


数据 量 的 大 小 也 是 一 个 问题 。MySQL 的 全 文 索引 只 有 全 部 在 内 存 中 的 时 候 ， 性 能 才 非 
常 好 。 如 果 内 存 无 法 装载 全 部 索引 ， 那 么 搜索 速度 可 能 会 非常 慢 。 当 你 使 用 精确 短语 搜 
索 时 ， 想 要 好 的 性 能 ， 数 据 和 索引 都 需要 在 内 存 中 。 相 比 其 他 的 索引 类 型 ， “4 INSERT, 
UPDATE 和 DELETE 操作 进行 时 ， 全 文 索引 的 操作 代价 都 很 大 : 


。 ”修改 一 段 文本 中 的 100 个 单词 ， 需 要 100 次 索引 操作 ， 而 不 是 一 次 。 

。 一 般 来 说 列 长 度 并 不 会 太 影响 其 他 的 索引 类 型 ， 但 是 如 果 是 全 文 索引 ， 三 个 单词 的 
文本 和 10 000 个 单词 的 文本 ， 性 能 可 能 会 相差 几 个 数量 级 。 

。 全 文 索 引 会 有 更 多 的 碎片 ， 可 能 需要 做 更 多 的 OPTIMIZE TABLE 操作 。 


全 文 索 引 还 会 影响 查询 优化 器 的 工作 。 索 引 选 择 、WHERE FAJ, ORDER BY 都 有 可 能 不 是 
按照 你 所 预想 的 方式 来 工作 : 


e 如 果 查 询 中 使 用 了 MATCH AGAINST 子 句 ， 而 对 应 列 上 又 有 可 用 的 全 文 索引 ， 那 么 
MySQL 就 一 定 会 使 用 这 个 全 文 索引 。 这 时 ， 即 使 有 其 他 的 索引 可 以 使 用 ，MySQL 
也 不 会 去 比较 到 底 哪 个 索引 的 性 能 更 好 。 所 以 ， 即 使 这 时 有 更 合适 的 索引 可 以 使 用 ， 
MySQL 仍然 会 置之不理 。 

。 全 文 索 引 只 能 用 作 全 文 搜索 匹配 。 任 何其 他 操作 ， 如 WHERE 条 件 比较 ， 都 必须 在 
MySQL 完成 全 文 搜索 返回 记录 后 才能 进行 。 这 和 其 他 普通 索引 不 同 ， 例 如 ， 在 处 理 
WHERE 条 件 时 ，MySQL 可 以 使 用 普通 索引 一 次 判断 多 个 比较 表达 式 。 

。 全文 索 引 不 存储 索引 列 的 实际 值 。 也 就 不 可 能 用 作 索 引 覆 盖 扫 描 。 

。 ”除了 相关 性 排序 ， 全 文 索引 不 能 用 作 其 他 的 排序 。 如 果 查 询 需要 做 相关 性 以 外 的 排 
序 操 作 ， 都 需要 使 用 文件 排序 。 
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让 我 们 看 看 这 些 限 制 如 何 影响 查询 语句 。 来 看 一 个 例子 ， 假 设 有 一 百 万 个 文档 记录 ， 在 
文档 的 作者 author 字段 上 有 一 个 普通 的 索引 ， 在 文档 内 容 字 段 content 上 有 全 文 索引 。 
现在 我 们 要 搜索 作者 是 123， 文档 中 又 包含 特定 词语 的 文档 。 很 多 人 可 能 会 按照 下 面 的 
方式 来 写 查 询 语句 : 


.. WHERE MATCH(content) AGAINST ('High Performance MySQL') 
AND author = 123; 


而 实际 上 ， 这 样 做 的 效率 非常 低 。 因 为 这 里 使 用 了 MATCH AGAINST, MBBS LMAS 
文 索引 ， 所 以 MySQL 优先 选择 使 用 全 文 索 引 ， 即 先 搜 索 所 有 的 文档 ， 查 找 是 否 有 包含 


关键 词 的 文档 ， 然 后 返回 记录 看 看 作者 是 否 是 123。 所 以 这 里 也 就 没有 使 用 author 字段 
上 的 索引 。 


一 个 替代 方案 是 将 author 列 包含 到 全 文 索引 中 。 可 以 在 author 列 的 值 前 面 附 上 一 个 不 常 
见 的 前 级 ， 然 后 将 这 个 带 前 级 的 值 存放 到 一 个 单独 的 filters 列 中 ， 并 单独 维护 该 列 (也 
许可 以 使 用 触发 器 来 做 维护 工作 )。 


这 样 就 可 以 扩展 全 文 索引 ， 使 其 包含 仙 ters 列 ， 上 面 的 查询 就 可 以 改写 为 : 


。WHERE MATCH(content, filters) 
AGAINST (‘High Performance MySQL +author id 123' IN BOOLEAN MODE); 


这 个 案例 中 ， 如 果 author 列 的 选择 性 非常 高 ， 那 么 MySQL 能 够 根据 作者 信息 很 快 地 将 
需要 过 滤 的 文档 记录 限制 在 一 个 很 小 的 范围 内 ， 这 个 查询 的 效率 也 就 会 非常 好 。 如 果 
author 列 的 选择 性 很 低 ， 那 么 这 个 替代 方案 的 效率 会 比 前 面 那个 更 糟 ， 所 以 使 用 的 时 候 


全 文 索引 有 了 时候 还 可 以 实现 一 些 简单 的 “边框 ”搜索 。 例 如 ， 希 望 搜 索 某 个 坐标 范围 
时 ， 将 坐标 按 某 种 方式 转换 成 文本 再 进行 全 文 索引 。 假 设 某 条 记录 的 坐标 为 X=123 和 
Y=456。 可 以 按照 这 样 的 方式 交错 存储 坐标 :XY142536， 然 后 对 此 进行 全 文 索 引 。 这 时 ， 
希望 查询 某 和 矩形 - 
接 搜索 “+XY14*”。 这 上 比 使 用 WHERE 条 件 过 滤 的 效率 要 高 很 多 。 








全 文 索引 的 另 一 个 常用 技巧 是 缓存 全 文 索引 返回 的 主键 值 ， 这 在 分 页 显示 的 时 候 经 常 使 
用 。 当 应 用 程序 真 的 需要 输出 结果 时 ， 才 通过 主键 值 将 所 有 需要 的 数据 返回 。 这 个 查询 
就 可 以 自由 地 使 用 其 他 索引 、 或 者 自由 地 关联 其 他 表 。 


RRA MyISAM 表 支 持 全 文 索 引 ， 但 是 如 果 仍 然 希望 使 用 InnoDB 或 其 他 引擎， 可 以 
将 原 表 复 制 到 一 个 备 库 ， 再 将 备 库 上 的 表 改 成 MyISAM 并 建 上 相应 的 全 文 索 引 。 如 果 不 
希望 在 另 一 个 服务 器 上 完成 查询 ， 还 可 以 对 表 进 行 垂直 拆 分 ， 将 需要 索引 的 列 放 到 一 个 


7.10 全 文 索 引 | 305 


单独 的 MyISAM 表 中 。 


将 需要 索引 的 列 额外 地 元 余 在 另 一 个 MyISAM 表 中 也 是 一 个 办 法 。 在 测试 库 中 sakila. 
film text 就 是 使 用 这 个 策略 , 这 里 使 用 触发 器 来 维护 这 个 表 的 数据 。 最 后 , 你 还 可 以 使 
用 一 个 包含 内 置 全 文 索引 的 引擎 ， 如 Lucene 或 者 Sphinx。 更 多 关于 Shpinx 的 内 容 请 参 


因为 使 用 全 文 索 引 的 时 候 ， 通 常会 返回 大 量 结 果 并 产生 大 量 随 机 1O， 如 果 和 GROUP BY 
一 起 使 用 的 话 ， 还 需要 通过 临时 表 或 者 文件 排序 进行 分 组 ， 性 能 会 非常 非常 糟糕 。 这 类 
查询 通常 只 是 希望 查询 分 组 后 的 前 几 名 结果 ， 所 以 一 个 有 效 的 优化 方法 是 对 结果 集 进行 
抽样 而 不 是 精确 计算 。 例 如 , 仅 查询 前 面 的 1 000 条 记录 ,进行 分 组 并 返回 前 几 名 的 结果 。 


7.10.5 全 文 索引 的 配置 和 优化 

全 文 索引 的 日 常 维护 通常 能 够 大 大 提升 性 能 。 “N B-Tree” 的 特殊 结构 、 在 某 些 文档 中 
比 其 他 文档 要 包含 多 得 多 的 关键 字 ， 这 都 使 得 全 文 索引 比 起 普通 索引 有 更 多 的 碎片 问题 。 
所 以 需要 经 常 使 用 OPTIMIZE TABLE 来 减少 碎片 。 如 果 应 用 是 VO 密集 型 的 ， 那 么 定期 地 
进行 全 文 索引 重建 可 以 让 性 能 提升 很 多 。 


如 果 和 希望 全 文 索引 能 够 高 效 地 工作 ， 还 需要 保证 索引 缓存 足够 大 ， 从 而 保证 所 有 的 全 文 
索引 都 能 够 缓存 在 内 存 中 。 通 常 ， 可 以 为 全 文 索引 设置 单独 的 键 缓存 (Key cache)， 保 
证 不 会 被 其 他 的 索引 缓存 挤 出 内 存 。 键 缓存 的 配置 和 使 用 可 以 参考 第 8 章 。 


提供 一 个 好 的 停 用 词 表 也 很 重要 。 上 默认 的 停 用 词 表 对 常用 英语 来 说 可 能 还 不 错 ， 但 是 
如 采 是 其 他 语言 或 者 茶 些 专业 文档 就 不 合适 了 ， 例 如 技术 文档 。 例 如 ， 者 要 索引 一 批 
MySQL 相关 的 文档 ， 那 么 最 好 将 mysa 放 入 停 用 词 表 ， 因 为 在 这 类 文档 中 ， 这 个 词 会 
HOLS AE Fe Oil Fe 


忽略 一 些 太 短 的 单词 也 可 以 提升 全 文 索引 的 效率 。 索 引 单词 的 最 小 长 度 可 以 通过 参数 
ft_min_word_len 配置 。 修 改 该 参数 可 以 过 滤 更 多 的 单词 ， 让 查询 速度 更 快 ， 但 是 也 会 
降低 精确 度 。 还 需要 注意 一 些 特殊 的 场景 ， 有 时 确实 需要 索引 某 些 非常 短 的 词语 。 例 如 ， 
对 一 个 电子 消费 品 文档 进行 索引 ， 除 非 我 们 允许 对 很 短 的 单词 进行 索引 ， 否 则 搜索 “cd 
player” 可 能 会 返回 大 量 的 结果 。 因 为 单词 “cd” 比 默认 允许 的 最 短 长 度 4 还 要 小 ， 所 
以 这 里 只 会 对 “Player” 进 行 搜索 ， 而 通常 搜索 “cd player” 的 客户 ， 其 实 对 MP3 或 者 
DVD 播放 器 并 不 感 兴趣 。 


停 用 词 表 和 人 允许 景 小 词 长 都 可 以 通过 减少 索引 词语 来 提升 全 文 索 引 的 效率 ， 但 是 同时 也 
会 降低 搜索 的 精确 度 。 这 需要 根据 实际 的 应 用 场景 找到 合适 的 平衡 点 。 如 果 你 希望 同时 
获得 好 的 性 能 和 好 的 搜索 质量 ， 那 么 需要 自己 定制 这 些 参数 。 一 个 好 的 办 法 是 通过 日 志 
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系统 来 研究 用 户 的 搜索 行为 ， 看 看 一 些 异 常 的 查询 ， 包 括 没 有 结果 返回 的 查询 或 者 返回 
过 多 结果 的 用 户 查 询 。 通 过 这 些 用 户 行为 和 被 搜索 的 内 容 来 判断 应 该 如 何 调整 索引 策略 。 


RN 
pee 需要 注意 ， 当 调整 “允许 最 小 词 长 ”后 ， 需 要 通过 OPTIMIZE TABLE 来 重建 索引 才 会 
| 43 | 生效 。 另 一 个 参数 ft_max word len aaa. 它 限 制 了 允许 索引 的 最 大 


“Ss 词 长 。 


当 加 一 个 有 全 文 索引 的 表 中 导入 大 量 数据 的 时 候 ， 最 好 先 通过 命令 DISABLE KEYS 来 禁用 


全 文 索引 ， 然 后 在 导入 结束 后 使 用 ENABLE KYES 来 建立 全 文 索引 。 因 为 全 文 索 引 的 更 新 . 


是 一 个 消耗 很 大 的 操作 ， 所 以 上 面 的 细 市 会 帮 你 节省 大 量 时 间 。 另 外 ， 这 样 还 顺便 为 全 
文 索引 做 了 一 次 碎片 整理 工作 。 


如 果 数 据 集 特别 大 ， 则 需要 对 数据 进行 手动 分 区 ， 然 后 将 数据 分 布 到 不 同 的 节点 ， 再 做 
并 行 的 搜索 。 这 是 一 个 复杂 的 工作 ， 最 好 通过 一 些 外 部 的 搜索 引擎 来 实现 ， 如 Lucene 或 
者 Sphinx。 我 们 的 经 验 显 示 这 样 做 性 能 会 有 指数 级 的 提升 。 


7.11 分 布 式 (XA) 事务 


存储 引擎 的 事务 特性 能 够 保证 在 存储 引擎 级 别 实现 ACID (参考 前 面 介绍 的 “事务 ”)， 
而 分 布 式 事务 则 让 存储 引 敬 级 别 的 ACID 可 以 扩展 到 数据 库 层面 ， 其 至 可 以 扩展 到 多 个 
数据 库 之 间 一 一 这 需要 通过 两 阶段 提交 实现 。MySQL 5.0 和 更 新 版 本 的 数据 库 已 经 开始 
支持 XA 事务 了 。 


XA 事务 中 需要 有 一 个 事务 协调 器 来 保证 所 有 的 事务 参与 者 都 完成 了 准备 工作 (第 一 阶 
段 )。 如 果 协 调 器 收 到 所 有 的 参与 者 都 准备 好 的 消息 ， 就 会 告诉 所 有 的 事务 可 以 提交 了 ， 
这 是 第 二 阶段 。MySQL 在 这 个 XA 事务 过 程 中 扮演 一 个 参与 者 的 角色 ， 而 不 是 协调 者 。 


实际 上 ， 在 MySQL 中 有 两 种 XA 事务 。 一 方面 ，MyYSQL 可 以 参与 到 外 部 的 分 布 式 事务 
中 ; 另 一 方面 ， 还 可 以 通过 XA 事务 来 协调 存储 引擎 和 二 进 制 日 志 。 


7.11.1 内 部 XA 事务 


MySQL 本 身 的 插件 式 架 构 导 致 在 其 内 部 需要 使 用 XA 事务 。MySQL 中 各 个 存储 引擎 是 
完全 独立 的 ， 彼 此 不 知道 对 方 的 存在 ， 所 以 一 个 跨 存 储 引 人 警 的 事务 就 需要 一 个 外 部 的 协 
调 者 。 如 果 不 使 用 XA 协议 ， 例 如 ， a 
引擎 各 目 提 交 。 如 果 在 某 个 存储 提交 过 程 中 发 生 系统 崩溃 ， BRAR Be & 
就 全 部 提交 ， 要 么 就 不 做 任何 操作 )。 
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如 果 将 MySQL 记录 的 二 进 制 日 志 操 作 看 作 一 个 独立 的 “存储 引擎 ” ， 就 不 难 理解 为 什么 
即使 是 一 个 存储 引擎 参与 的 事务 仍然 需要 XA 事务 了 。 在 存储 引擎 提交 的 同时 ， 需 要 将 

“提交 ”的 信息 写 和 二进制 日 志 ， 这 就 是 一 个 分 布 式 事务 ， 只 不 过 二 进 制 日 志 的 参与 者 
是 MySQL 本 身 。 


XA EZ A MySQL 带 来 巨大 的 性 能 下 降 . 从 MySQL 5.0 开 始 , 它 破坏 了 MySQL 内 部 的 “ 批 
量 提交 ”( 一 种 通过 单 磁盘 I/O 操作 完成 多 个 事务 提交 的 技术 )， 使 得 MySQL 不 得 不 进 
行 多 次 额外 的 fsync() 调用 = “5“。 具 体 的 ， 一 个 事务 如 果 开 启 了 二 进 制 日 志 ， 则 不 仅 需要 
对 二 进 制 日 志 进 行 持久 化 操作 ,InnoDB 事务 日 志 还 需要 两 次 日 志 持 久 化 操作 。 换 名 话说 ， 
如 果 和 希望 有 二 进 制 日 志 安 全 的 事务 实现 ， 则 至 少 需要 做 三 次 fsync( ) 操作 。 唯 一 避免 这 
个 问题 的 办 法 就 是 关闭 二 进 制 日 志 ， 并 将 innodb support xaikB 0", 


但 这 样 的 设置 是 非常 不 安全 的 ， 而 且 这 会 导致 MySQL 复制 也 没 法 正常 工作 。 复 制 需 
要 二 进 制 日 志和 XA 事务 的 支持 ， 另 外 一 一 如 果 希 望 数据 尽 可 能 安全 一 一 最 好 还 要 将 
sync_binlog 设置 成 1， 这 时 存储 引擎 和 二 进 制 日 志 才 是 真正 同步 的 。( 否 则 ，XA 事务 
支持 就 没有 意义 了 ， 因 为 事务 提交 了 二 进 制 日 志 却 可 能 没有 “提交 ”到 磁盘 。) 这 也 是 为 什 
么 我 们 强烈 建议 使 用 带电 池 保 护 的 RAID KER: 这 个 缓存 可 以 大 大 加 快 fsync() 操作 
的 效率 。 


下 一 章 我 们 将 更 进一步 地 介绍 如 何 配置 事务 日 志和 二 进 制 日 志 。 


7.11.2 外 部 XA 事务 

MySQL 能 够 作为 参与 者 完成 一 个 外 部 的 分 布 式 事务 。 但 它 对 XA 协议 支持 并 不 完整 ， 例 
如 ，XA 协议 要 求 在 一 个 事务 中 的 多 个 连接 可 以 做 关联 ， 但 目前 的 MySQL 版 本 还 不 能 
支持 。 


因为 通信 延迟 和 参与 者 本 身 可 能 失败 ， 所 以 外 部 XA 事务 比 内 部 消耗 会 更 大 。 如 果 在 广 
域 网 中 使 用 XA 事务 ， 通 常会 因为 不 可 预测 的 网 络 性 能 导致 事务 失败 。 如 有 果 有 太 多 不 可 
控 因 素 ， 例 如 ， 不 稳定 的 网 络 通信 或 者 用 户 长 时 间 地 等 待 而 不 提交 ， 则 最 好 避免 使 用 
XA 事务 。 任 何 可 能 让 事务 提交 发 生 延迟 的 操作 代价 都 很 大 ， 因 为 它 影响 的 不 仅仅 是 目 
己 本 身 ， 它 还 会 让 所 有 参与 者 都 在 等 待 。 


通常 ， 还 可 以 使 用 别 的 方式 实现 高 性 能 的 分 布 式 事务 。 例 如 ， 可 以 在 本 地 写 入 数据 ， 并 


注 15 : 在 撰写 本 书 的 时 候 , “批量 提交 ”的 问题 已 经 有 了 很 多 解决 方案 ， 其 中 至 少 有 三 种 是 很 优秀 的 。 还 
需要 进一步 观察 到 底 MySQL 官方 会 采用 哪 一 种 , 到 底 到 哪个 版 本 MySQL 才 会 合并 到 源码 。 目 前 ， 
使 用 MariaDB 和 Percona Server 就 可 以 避免 这 个 问题 。 

注 16 : 一 个 常见 的 误区 是 认为 innodb _ support xa 只 有 在 需要 XA 事务 时 才 需 要 打开 。 这 是 错误 的 : 该 
参数 还 会 控制 MyQSL 内 部 存储 引擎 和 二 进 制 日 志 之 间 的 分 布 式 事务 。 如 果 你 真正 关心 你 的 数据 ， 
你 需要 将 这 个 参数 打开 。 
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将 其 放 入 队列 ， 然 后 在 一 个 更 小 、 更 快 的 事务 中 自动 分 发 。 还 可 以 使 用 MySQL 本 身 的 
复制 机 制 来 发 送 数据 。 我 们 看 到 很 多 应 用 程序 都 可 以 完全 避免 使 用 分 布 式 事务 。 


也 就 是 说 ，XA 事务 是 一 种 在 多 个 服务 器 之 间 同 步 数 据 的 方法 。 如 果 由 于 某 些 原因 不 能 
使 用 MySQL 本 身 的 复制 ， 或 者 性 能 并 不 是 瓶颈 的 时 候 ， 可 以 尝试 使 用 。 


7.12 查询 缓存 


很 多 数据 库 产品 都 能 够 缓存 查询 的 执行 计划 ， 对 于 相同 类 型 的 SQL 就 可 以 跳 过 SQL 解 
析 和 执行 计划 生成 阶段 。MySQL 在 某 些 场景 下 也 可 以 实现 ， 但 是 MySQL 还 有 另 一 种 不 
同 的 缓存 类 型 ; 缓存 完整 的 SELECT 查询 结果 ， 也 就 是 “查询 缓存 ”。 本 节 将 详细 介绍 这 
类 缓存 。 


MySQL 查询 缓存 保存 查询 返回 的 完整 结果 。 当 查询 命中 该 缓存 , MySQL 会 立刻 返回 结果 ， 
跳 过 了 解析 、 优 化 和 执行 阶段 。 


查询 缓存 系统 会 跟踪 查询 中 涉及 的 每 个 表 ， 如 果 这 些 表 发 生变 化 ， 那 么 和 这 个 表 相 关 的 
所 有 的 缓存 数据 都 将 失效 。 这 种 机 制 效 率 看 起 来 比较 低 ， 因 为 数据 表 变 化 时 很 有 可 能 对 
应 的 查询 结果 并 没有 变更 ， 但 是 这 种 简单 实现 代价 很 小 ， 而 这 点 对 于 一 个 非常 繁忙 的 系 
统 来 说 非常 重要 。 


查询 缓存 对 应 用 程序 是 完全 透明 的 。 应 用 程序 无 须 关 心 MySQL 是 通过 查询 缓存 返回 的 
结果 还 是 实际 执行 返回 的 结果 。 事实 上 , 这 两 种 方式 执行 的 结果 是 完全 相同 的 。 换 句 话说 ， 
查询 缓存 无 须 使 用 任何 语法 。 无 论 是 MySQL 开启 或 关闭 查询 缓存 ， 对 应 用 程序 都 是 透 
HWET, 


随 着 现在 的 通用 服务 器 越 来 越 强大 ， 查 询 缓 存 被 发 现 是 一 个 影响 服务 器 扩展 性 的 因素 。 
它 可 能 成 为 整个 服务 器 的 资源 竞争 单 尽 ， 在 多 核 服务 器 上 还 可 能 导致 服务 器 伪 死 。 后 面 
我 们 将 详细 介绍 如 何 配合 查询 缓存 ,但 是 很 多 时 修 我们 还 是 认为 应 该 默认 关闭 查询 缓存 ， 
如 果 查 询 缓 存 作用 很 大 的 话 ， 那 就 配置 一 个 很 小 的 查询 缓存 空间 (JLH). mR 
们 将 解释 如 何 判 断 在 你 的 系统 压力 下 打开 查询 缓存 是 否 有 好 处 。 


7.12.1 MySQL 如 何 判 断 缓存 命中 
MySQL 判断 缓存 命中 的 方法 很 简单 : 缓存 存放 在 一 个 引用 表 中 ， 通 过 一 个 哈 希 值 引用 ， 
这 个 哈 希 值 包 括 了 如 下 因素 ， 即 查询 本 身 、 当 前 要 查询 的 数据 库 、 客 户 端 协议 的 版 本 等 


217: 有 一 种 方式 查询 缓存 可 能 和 原生 的 SQL 工作 方式 有 所 不 同 : 默认 的 ， 当 要 查询 的 表 被 LOCK 
TABLES 锁 住 时 ， 查 询 仍 然 可 以 通过 查询 缓存 返回 数据 。 你 可 以 通过 参数 query_cache wlock_ 
invalidate 打开 或 者 关闭 这 种 行为 。 
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一 些 其 他 可 能 会 影响 返回 结果 的 信息 。 


当 判断 缓存 是 否 命 中 时 ，MySQL 不 会 解析 、“ 正 规 化 ”或 者 参数 化 查询 语句 ， 而 是 直接 
使 用 es op ene 例如 空格 、 注 
语句 的 时 候 ， 需 要 
kind, aan A hee. 在 这 里 这 个 好 习惯 会 让 你 的 
系统 运行 得 更 快 。 


当 查 询 语句 中 有 一 些 不 确定 的 数据 时 ， 则 不 会 被 缓存 。 例 如 包含 沙 数 NOW( ) 或 者 CURRENT 
DATE() 的 查询 不 会 被 缓存 。 类 似 的 ， 包 含 CURRENT_USER 或 者 CONNECTION ID() 的 查询 
语句 因为 会 根据 不 同 的 用 户 返 回 不 同 的 结果 ， 所 以 也 不 会 被 缓存 。 事 实 上 ， 如 果 查 询 中 
包含 任何 用 户 自 定义 函数 、 存 储 函 数 、 用 户 变量 、 临 时 表 、mysql 库 中 的 系统 表 ， 或 者 
任何 包含 列 级 别 权 限 的 表 ， 都 不 会 被 缓存 。( 如 果 想 知道 所 有 情况 ， 建 议 阅读 MySQL È 
方 手 册 。) 


我 们 常 听 到 :“ 如 果 查 询 中 包含 一 个 不 确定 的 函数 ，MySQL 则 不 会 检查 查询 缓存 ”"。 这 
个 说 法 是 不 正确 的 。 因 为 在 检查 查询 缓存 的 时 候 ， 还 没有 解析 SQL 语句 ， 所 以 MySQL 
并 不 知道 查询 语句 中 是 否 包 含 这 类 函数 。 在 检查 查询 缓存 之 前 ，MySQL 只 做 一 件 事情 ， 
就 是 通过 一 个 大 小 写 不 敏感 的 检查 看 看 SQL 语句 是 不 是 以 SEL 开头 。 


准确 的 说 法 应 该 是 : 如 果 查 询 语句 中 包含 任何 的 不 确定 函数 ， 那 么 在 查询 缓存 中 是 不 可 
能 找到 缓存 结果 的 "。 因 为 即使 之 前 刚刚 执行 了 这 样 的 查询 ,结果 也 不 会 放 在 查询 缓存 中 。 
MySQL 在 任何 时 候 只 要 发 现 不 能 被 缓存 的 部 分 ， 就 会 禁止 这 个 查询 被 缓存 。 


所 以 ， 如 果 希 望 换 成 一 个 带 日 期 的 查询 ， 那 么 最 好 将 日 期 提前 计算 好 ， 而 不 要 直接 使 用 
函数 。 例 如 : 








.. DATE_SUB(CURRENT DATE, INTERVAL 1 DAY) -- Not cacheable! 
.。 DATE_SUB('2007-07-14’, INTERVAL 1 DAY) -- Cacheable 


因为 查询 缓存 是 在 完整 的 SELECT 语句 基础 上 的 ， 而 且 只 是 在 刚 收 到 SQL 语句 的 时 候 
才 检 查 ， 所 以 子 查询 和 存储 过 程 都 设 办 法 使 用 查询 缓存 。 在 MySQL 5.1 之 前 的 版 本 中 ， 
绑 定 变量 也 无 法 使 用 查询 缓存 。 


MySQL 的 查询 缓存 在 很 多 时 候 可 以 提升 查询 性 能 ， 在 使 用 的 时 候 ， 有 一 些 问题 需要 特 
别 注意 。 首 先 ， 打 开 查 询 缓 存 对 读 和 写 操作 都 会 带 来 额外 的 消耗 : 


注 18 : 对 于 这 个 规则 ，Percona Server 是 个 例外 。 它 会 先 将 所 有 的 注释 语 铝 删除， 然后 再 比较 查询 语句 是 
否 有 给 存 。 这 是 一 个 通用 的 需求 ， 这 样 可 以 在 查询 语句 中 带 入 更 多 的 处 理 过 程 信息 。 前 面 第 3 章 
我 们 介绍 的 MySQL 监控 系统 就 依赖 于 此 。 
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。 ， 读 查 询 在 开始 之 前 必须 先 检查 是 否 命中 缓存 。 

。 ”如 果 这 个 读 查询 可 以 被 缓存 ， 那 么 当 完成 执行 后 ，MySQL 若 发 现 查询 缓存 中 没有 这 
个 查询 ， 会 将 其 结果 存 人 查询 缓存 ， 这 会 带 来 额外 的 系统 消耗 。 

。 这 对 写 操作 也 会 有 影响 ， 因 为 当 向 某 个 表 写 人 数据 的 时 候 ，MySQL 必须 将 对 应 表 的 
所 有 缓存 都 设置 失效 。 如 果 查 询 缓存 非常 大 或 者 碎片 很 多 ， 这 个 操作 就 可 能 会 带 来 
很 大 系统 消耗 (设置 了 很 多 的 内 存 给 查询 缓存 用 的 时 候 )。 


虽然 如 此 ， 查 询 缓存 仍然 可 能 给 系统 带 来 性 能 提升 。 但 是 ， 如 上 所 述 ， 这 些 额 外 消耗 也 
可 能 不 断 增 加 ， 再 加 上 对 查询 缓存 操作 是 一 个 加 锁 排 他 操作 ， 这 个 消耗 可 能 不 容 小 山 。 


对 InnoDB 用 户 来 说 ， 事 务 的 一 些 特性 会 限制 查询 缓存 的 使 用 。 当 一 个 语句 在 事务 中 修 
KTDR, MySQL 会 将 这 个 表 的 对 应 的 查询 缓存 都 设置 失效 ， 而 事实 上 ，InnoDB 的 
多 版 本 特性 会 暂时 将 这 个 修改 对 其 他 事务 屏蔽 。 在 这 个 事务 提交 之 前 ， 这 个 表 的 相关 查 
询 是 无 法 被 缓存 的 ， 所 以 所 有 在 这 个 表 上 面 的 查询 一 一 内 部 或 外 部 的 事务 一 一 都 只 能 在 
该 事务 提交 后 才 被 缓存 。 因 此 ， 长 时 间 运 行 的 事务 ， 会 大 大 降低 查询 缓存 的 命中 率 。 


如 果 查 询 缓存 使 用 了 很 大 量 的 内 存 ， 缓 存 失 效 操 作 就 可 能 成 为 一 个 非常 严重 的 问题 瓶颈 。 
如 果 缓 存 中 存放 了 大 量 的 查询 结果 ， 那 么 缓存 失效 操作 时 整个 系统 都 可 能 会 僵 死 一 会 儿 。 
因为 这 个 操作 是 靠 一 个 全 局 锁 操 作 保 护 的 ， 所 有 需要 做 该 操作 的 查询 都 要 等 待 这 个 锁 ， 
而 且 无 论 是 检测 是 否 命中 缓存 、 还 是 缓存 失效 检测 都 需要 等 待 这 个 全 局 锁 。 第 3 章 中 有 
一 个 真实 的 案例 ， 为 大 家 展示 查询 缓存 过 大 时 带 来 的 系统 消耗 。 


7.12.2 查询 缓存 如 何 使 用 内 存 


查询 缓存 是 完全 存储 在 内 存 中 的 ， 所 以 在 配置 和 使 用 它 之 前 ， 我 们 需要 先 了 解 它 是 如 何 
使 用 内 存 的 。 除 了 查询 结果 之 外 ， 需 要 缓存 的 还 有 很 多 别 的 维护 相关 的 数据 。 这 和 文件 
系统 有 些 类 似 : 需要 一 些 内 存 专门 用 来 确定 哪些 内 存 目 前 是 可 用 的 、 哪 些 是 已 经 用 掉 的 、 
哪些 用 来 存储 数据 表 和 查询 结果 之 前 的 映射 、 哪 些 用 来 存储 查询 字符 串 和 查询 结果 。 


这 些 基本 的 管理 维护 数据 结构 大 概 需要 40KB 的 内 存 资源 ， 除 此 之 外 ，MySQL 用 于 查询 
缓存 的 内 存 被 分 成 一 个 个 的 数据 块 ， 数 据 块 是 变 长 的 。 每 一 个 数据 块 中 ， 存 储 了 自己 的 
类 型 、 大 小 和 存储 的 数据 本 身 ， 还 外 加 指 同 前 一 个 和 后 一 个 数据 块 的 指针 。 数 据 块 的 类 
型 有 : 存储 查询 结果 、 存 储 查询 和 数据 表 的 映射 、 存 储 查询 文本 ， 等 等 。 不 同 的 存储 块 ， 
在 内 存 使 用 上 并 没有 什么 不 同 ， 从 用 户 角度 来 看 无 须 区 分 它们 。 


当 服 务 器 启动 的 时 候 ， 它 先 初 始 化 查询 缓存 需要 的 内 存 。 这 个 内 存 池 初始 是 一 个 完整 的 
空 闪 块 。 这 个 空闲 块 的 大 小 就 是 你 所 配置 的 查询 缓存 大 小 再 减 去 用 于 维护 元 数据 的 数据 
结构 所 消耗 的 空间 。 
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当 有 查询 结果 需要 缓存 的 时 候 ，MySQL 先 从 大 的 空间 块 中 申请 一 个 数据 块 用 于 存储 结 
果 。 这 个 数据 块 需要 大 于 参数 query_cache min res unit 的 配置 ， 即 使 查询 结果 远 远 小 
于 此 ， 仍 需要 至 少 申请 query_cache min res unit 空间 。 因 为 需要 在 查询 开始 返回 结果 
的 时 候 就 分 配 空 间 ， 而 此 时 是 无 法 预知 查询 结果 到 底 多 大 的 ， 所 以 MySQL 无 法 为 每 一 
个 查询 结果 精确 分 配 大 小 恰好 匹配 的 缓存 空间 。 


因为 需要 先 锁 住 空间 块 ， 然 后 找到 合适 大 小 数据 块 ， 所 以 相对 来 说 ， 分 配 内 存 块 是 一 个 
非常 慢 的 操作 。MySQL 尽量 避免 这 个 操作 的 次 数 。 当 需要 缓存 一 个 查询 结果 的 时 候 ， 
它 先 选 择 一 个 尽 可 能 小 的 内 存 块 (也 可 能 选择 较 大 的 ， 这 里 将 不 介绍 细节 )， 然 后 将 结 
采 存 人 其 中 。 如 有 果 数 据 块 全 部 用 完 ， 但 仍 有 剩余 数据 需要 存储 ， 那 么 MySQL 会 申请 一 
块 新 数据 块 一 一 仍然 是 尽 可 能 小 的 数据 块 一 一 继续 存储 结果 数据 。 当 查询 完成 时 ， 如 果 
申请 的 内 存 空间 还 有 剩余 ，MySQL 会 将 其 释放 ， 并 放 人 空闲 内 存 部 分 。 图 7-3 展示 了 这 
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图 7-3: 查询 缓存 如 何 分 配 内 存 来 存储 结果 数据 


我 们 上 面 说 的 “分 配 内 存 块 "， 并 不 是 指 通 过 函数 malloc() 向 操作 系统 申请 内 存 ， 这 
个 操作 只 在 初次 创建 查询 缓存 的 时 候 执 行 一 次 。 这 里 “分 配 内 存 块 ” 是 指 在 空 闪 块 列表 
中 找到 一 个 合适 的 内 存 块 ,或 者 从 正在 使 用 的 、 待 淘汰 的 内 存 块 中 回收 再 使 用 。 也 就 是 说 ， 
注 19 : 这 里 绘制 的 查询 缓存 内 存 分 配 图 ， 仍 然 是 一 种 简化 的 情况 。MySQL 实际 管理 查询 缓存 的 方式 比 这 


要 更 复杂 。 如 果 你 想 知 道 更 多 的 细节 ， 在 源 代 码 文 件 sg1sq1_cache.cc 开头 的 注释 中 有 非常 详细 的 
解释 。 
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这 里 MySQL 自己 管理 一 大 块 内 存 ， 而 不 依赖 操作 系统 的 内 存 管理 。 


至 此 ， 一 切 都 看 起 来 很 简单 。 不 过 实际 情况 比 图 7-3 要 更 复杂 。 例 如 ， 我 们 假设 平均 得 
询 结果 非常 小 ， 服 务 器 在 并 发 地 向 不 同 的 两 个 连接 返回 结果 ， 返 回 完 结果 后 MySQL 回 
收 剩余 数据 块 空间 时 会 发 现 ， 回 收 的 数据 块 小 于 query cache _min_res_unit， 所 以 不 能 
够 直接 在 后 续 的 内 存 块 分 配 中 使 用 。 如 果 考 虑 到 这 种 情况 ， 数 据 块 的 分 配 就 更 复杂 些 ， 
如 图 7-4 所 示 。 
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图 7-4: 查询 缓存 中 存储 查询 结果 后 剩余 的 碎片 


在 收缩 第 一 个 查询 结果 使 用 的 缓存 空间 时 ， 就 会 在 第 二 个 查询 结果 之 间 留 下 一 个 “ 空 
隙 ”一 一 一 个 非常 小 的 空 闪 空间 ， 因 为 小 于 query_cache min_res_unit 而 不 能 再 次 被 查 
询 缓 存 使 用 。 这 类 “空隙 ”我 们 称 为 “碎片 "， 这 在 内 存 管理 、 文 件 系 统管 理 上 都 是 经 
典 问 题 。 有 很 多 种 情况 都 会 导致 碎片 ， 例 如 缓存 失效 时 ， 可 能 导致 留 下 太 小 的 数据 块 无 
法 在 后 续 缓存 中 使 用 。 


7.12.3 什么 情况 下 查询 缓存 能 发 挥 作用 

并 不 是 什么 情况 下 查询 缓存 都 会 提高 系统 性 能 的 。 缓 存 和 失效 都 会 带 来 额外 的 消耗 ， 所 
以 只 有 当 缓 存 带 来 的 资源 节约 大 于 其 本 身 的 资源 消耗 时 才 会 给 系统 带 来 性 能 提升 。 这 跟 
具体 的 服务 器 压力 模型 有 关 。 
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理论 上 ， 可 以 通过 观察 打开 或 者 关闭 查询 缓存 时 候 的 系统 效率 来 决定 是 否 需要 开启 查询 
缓存 。 关 闭 查询 缓存 时 ,每 个 查询 都 需要 完整 的 执行 ,每 一 次 写 操作 执行 完成 后 立刻 返回 ， 
打开 查询 缓存 时 ， 每 次 读 请 求 先 检查 缓存 是 否 命中 ， 如 果 命 中 则 立刻 返回 ， 否 则 就 完整 
地 执行 查询 ， 每 次 写 操作 则 需要 检查 查询 缓存 中 是 否 有 需要 失效 的 缓存 ， 然 后 再 返回 。 


这 个 过 程 还 比较 简单 明了 ， 但 是 要 评估 打开 查询 缓存 是 否 能 够 带 来 性 能 提升 却 并 不 容易 。 
还 有 一 些 外 部 的 因素 需要 考虑 ， 例 如 ， 查 询 缓存 可 以 降低 查询 执行 的 时 间 ， 但 是 却 不 能 
减少 查询 结果 传输 的 网 络 消耗 ， 如 果 这 个 消耗 是 系统 的 主要 瓶颈 ， 那 么 查询 缓存 的 作用 
也 很 小 。 


因为 MySQL 在 SHOW STATUS 中 只 能 提供 一 个 全 局 的 性 能 指标 ， 所 以 很 难 根据 此 来 判断 
查询 缓存 是 否 能 够 提升 性 能 ”。 很 多 时 候 ， 全 局 平均 不 能 反映 实际 情况 。 例 如 ， 打 开 查 
询 缓存 可 以 使 得 一 个 很 慢 的 查询 变 得 非常 快 ， 但 是 也 会 让 其 他 查询 稍微 慢 一 点 点 。 有 时 
候 如 有 果 能 够 让 某 些 关键 的 查询 速度 更 快 ， 稍 微 降 低 一 下 其 他 查询 的 速度 是 值得 的 。 不 过 ， 
这 种 情况 我 们 推荐 使 用 SQL _ CACHE 来 优化 对 查询 缓存 的 使 用 。 


对 于 那些 需要 消耗 大 量 资源 的 查询 通常 都 是 非常 适合 缓存 的 。 例 如 一 些 汇总 计算 查询 ， 
具体 的 如 COUNT() 等 。 总 地 来 说 ， 对 于 复杂 的 SELECT 语句 都 可 以 使 用 查询 缓存 ， 例 如 多 
K JOIN 后 还 需要 做 排序 和 分 页 ， 这 类 查询 每 次 执行 消耗 都 很 大 ， 但 是 返回 的 结果 集 却 
很 小 ， 非 常 适 合 查询 缓存 。 不 过 需要 注意 的 是 ， 涉 及 的 表 上 UPDATE、DELETE 和 INSERT 
操作 相 比 SELECT 来 说 要 非常 少 才 行 。 


一 个 判断 查询 缓存 是 否 有 效 的 直接 数据 是 命中 率 ， 就 是 使 用 查询 缓存 返回 结果 占 总 查询 
的 比率 。 当 MySQL 接收 到 一 个 SELECT 查询 的 了 时候， 要 么 增加 Qcache_hits 的 值 ， 要 
么 增加 Com_select 的 值 。 所 以 查询 缓存 命中 率 可 以 由 如 下 公式 计算 : Qcache_hits/ 


(Qcache hits+Com select). 


不 过 ， 查 询 缓 存 命中 率 是 一 个 很 难 判 断 的 数值 。 命 中 率 多 大 才 是 好 的 命中 率 ? 具体 情况 
要 具体 分 析 。 只 要 查询 缓存 带 来 的 效率 提升 大 于 查询 缓存 带 来 的 额外 消耗 ， 即 使 30% 命 
中 率 对 系统 性 能 提升 也 i 很 大 好 处 。 另 外 ， 缓 存 了 哪些 查询 也 很 重要 ， 例 如 ， 被 缓存 的 
查询 本 身 消 耗 非 常 巨大 ， 那 么 即使 缓存 命中 率 非 常 低 ， 也 仍然 会 对 系统 性 能 提升 有 好 处 。 
所 以 ， 没 有 一 个 简单 的 规则 可 以 判断 查询 缓存 是 否 对 系统 有 好 处 。 


任何 SELECT 语句 没有 从 查询 缓存 中 返回 都 称 为 “缓存 未 命中 。 缓 存 未 命中 可 能 有 如 下 
儿 种 原因 : 


。 查询 语句 无 法 被 缓存 ， 可 能 是 因为 查询 中 包含 一 个 不 确定 的 函数 (如 CURRENT_ 


注 20: Percona 和 MariaDB 对 MySQL 慢 日 志和 进行 了 改进 ， 会 记录 慢 日 志 中 的 查询 是 否 命中 查询 缓存 。 
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”DATA) , 或 者 查询 结果 太 大 而 无 法 缓存 。 这 都 会 导致 状态 值 Qcache_not_cached 增加 。 
。 MySQL 从 未 处 理 这 个 查询 ， 所 以 结果 也 从 不 曾 被 缓存 过 。 
。 还 有 一 种 情况 是 虽然 之 前 缓存 了 查询 结果 ,但 是 由 于 查询 缓存 的 内 存 用 完了 ， GQ 
MySQL 需要 将 某 些 缓存 “ 逐 出 ”或 者 由 于 数据 表 被 修改 导致 缓存 失效 。( 后 续 会 详 
细 介 绍 缓存 失效 。) 


如 果 你 的 服务 器 上 有 大 量 缓存 未 命中 ， 但 是 实际 上 绝 大 数 查询 都 被 缓存 了 ， 那 么 一 定 是 
有 如 下 情况 发 生 : 


© 查询 缓存 还 没有 完成 预 热 。 也 就 是 说 ，MySQL 还 没有 机 会 将 查询 结果 都 缓存 起 来 。 

e 查询 语句 之 前 从 未 执行 过 。 如 果 你 的 应 用 程序 不 会 重复 执行 一 条 查询 语句 ， 那 么 即 
使 完成 预 热 仍然 会 有 很 多 缓存 未 命中 。 

。 缓存 失效 操作 太 多 了 。 


缓存 碎片 、 内 存 不 足 、 数 据 修 改 都 会 造成 缓存 失效 。 如 果 配 置 了 足够 的 缓存 空间 ， 而 且 
query cache _min_res_unit 设置 也 合理 的 话 , 那么 缓存 失效 应 该 主要 是 数据 修改 导致 的 。 
可 以 通过 参数 Com_* 来 查看 数据 修改 的 情况 (包括 Com_update，Com_detete， 等 等 ) ， 
还 可 以 通过 Qcache_lowmem_prunes 来 查看 有 多 少 次 失效 是 由 于 内 存 不 足 导 致 的 。 


在 考虑 缓存 命中 率 的 同时 ， 通 常 还 需要 考虑 缓存 失效 带 来 的 额外 消耗 。 一 个 极端 的 办 法 
是 ， 对 某 一 个 表 先 做 一 次 只 有 查询 的 测试 ， 并 且 所 有 的 查询 都 命中 缓存 ， 而 另 一 个 相同 
的 表 则 只 做 修改 操作 。 这 时 ， 查 询 缓存 的 命中 率 就 是 100%。 但 因为 会 给 更 新 操作 带 来 
额外 的 消耗 ， 所 以 查询 缓存 并 不 一 定 会 带 来 总 体 效率 的 提升 。 这 里 ， 所 有 的 更 新 语句 都 
会 做 一 次 缓存 失效 检查 ， 而 检查 的 结果 都 是 相同 的 ， 这 会 给 系统 带 来 额外 的 资源 浪费 。 
所 以 ， 如 有 果 你 只 是 观察 查询 缓存 的 命中 率 的 话 ， 可 能 完全 不 会 发 现 这 样 的 问题 。 


TE MySQL 中 如 果 更 新 操作 和 带 缓存 的 读 操 作 混 合 ， 那 么 查询 缓存 带 来 的 好 处 通常 很 难 
衡量 。 更 新 操作 会 不 断 地 使 得 缓存 失效 ， 而 同时 每 次 查询 还 会 同 缓存 中 再 写 入 新 的 数据 。 
所 以 只 有 当 后 续 的 查询 能 够 在 缓存 失效 前 使 用 缓存 才 会 有 效 地 利用 查询 缓存 。 


如 果 缓 存 的 结果 在 失效 前 没有 被 任何 其 他 的 SELECT 语句 使 用 ， 那 么 这 次 缓存 操作 就 是 
浪费 时 间 和 内 存 。 我 们 可 以 通过 查看 Com_seLect 和 Qcache_inserts 的 相对 值 来 看 看 是 
否 一 直 有 这 种 情况 发 生 。 如 果 每 次 查询 操作 都 是 缓存 未 命中 ， 然 后 需要 将 查询 结果 放 到 
缓存 中 ， 那 么 Qcache inserts 的 大 小 应 该 和 Com select 相当 。 所 以 在 缓存 完成 预 热 后 ， 
我 们 总 希望 看 到 Qcache_inserts 远 远 小 于 Com_seLect。 不 过 由 于 缓存 和 服务 器 内 部 的 
复杂 和 多 样 性 ， 仍 然 很 难说 ， 这 个 比率 是 多 少 才 是 一 个 合适 的 值 。 
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所 以 ,上 面 的 “命中 率 ” 和 “INSERTS 和 SELECT 比率 ”都 无 法 直观 地 反应 查询 缓存 的 效率 。 
那么 还 有 什么 直观 的 办 法 能 够 反映 查询 缓存 是 否 对 系统 有 好 处 ? 这 里 推荐 查看 另 一 个 指 
标 :“ 命 中 和 写 人 ”的 比率 ， 即 Qcache hits 和 Qcache inserts 的 比值 。 根 据 经 验 来 看 ， 
当 这 个 比值 大 于 3 : 1 时 通常 查询 缓存 是 有 效 的 ， 不 过 这 个 比率 最 好 能 够 达到 10 : 1。 如 
果 你 的 应 用 没有 达到 这 个 比率 ， 那 么 就 可 以 考虑 禁用 查询 缓存 了 ， 除 非 你 能 够 通过 精确 
的 计算 得 知 : 命中 带 来 的 性 能 提升 大 于 缓存 失效 的 消耗 ， 并 且 查 询 缓存 并 没有 成 为 系统 
的 瓶颈 。 


每 一 个 应 用 程序 都 会 有 一 个 “最 大 缓存 空间 ”， 其 至 对 一 些 纯 读 的 启用 来 说 也 一 样 。 最 
大 缓存 空间 是 能 够 缓存 所 有 可 能 查询 结果 的 缓存 空间 总 和 。 理 论 上 ， 对 多 数 应 用 来 说 ， 
这 个 数值 都 会 非常 大 。 而 实际 上 ， 由 于 缓存 失效 的 原因 ， 大 多 数 应 用 最 后 使 用 的 缓存 空 
间 都 比 预想 的 要 小 。 即 使 你 配置 了 足够 大 的 缓存 空间 ， 由 于 不 断 地 失效 ， 导 致 缓存 空间 
一 直 都 不 会 接近 “最 大 缓存 空间 ”。 


通常 可 以 通过 观察 查询 缓存 内 存 的 实际 使 用 情况 ， 来 确定 是 否 需要 缩小 或 者 扩大 查询 组 
存 。 如 果 查 询 缓存 空间 长 时 间 都 有 剩余 ， 那 么 建议 缩小 ; 如 果 经 常 由 于 空间 不 足 而 导致 
查询 缓存 失效 ， 那 么 则 需要 增 大 查询 缓存 。 不 过 需要 注意 ， 如 果 查 询 缓存 达到 了 几 十 兆 
这 样 的 数量 级 ， 是 有 潜在 危险 的 。( 这 和 硬件 以 及 系统 压力 大 小 有 关 )。 


另外 ， 可 能 还 需要 和 系统 的 其 他 缓存 一 起 考虑 ， 例 如 InnoDB 的 缓存 池 ， 或 者 MyISAM 
的 索引 缓存 。 关 于 这 点 是 没 法 简单 给 出 一 个 公式 或 者 比率 来 判断 的 ， 因 为 真正 的 平衡 点 
与 应 用 程序 有 很 大 的 关系 。 


最 好 的 判断 查询 缓存 是 否 有 效 的 办 法 还 是 通过 查看 某 类 查询 时 间 消 耗 是 否 增 大 或 者 减少 
来 判断 。Percona Server 通过 扩展 慢 查 询 可 以 观察 到 一 个 查询 是 否 命中 缓存 。 如 果 查 询 
缓存 没有 为 系统 节省 时 间 ， 那 么 最 好 禁用 它 。 


7.12.4 如 何 配 置 和 维护 查询 缓存 
一 旦 理解 查询 缓存 工作 的 原理 ， 配 置 起 来 就 很 容易 了 。 它 也 只 有 很 少 的 参数 可 供 配 置 ， 
如 下 所 示 。 


query_cache type 
是 否 打开 查询 缓存 。 可 以 设置 成 OFF、0ON 或 DEMAND, DEMAND 表示 只 有 在 查询 语句 中 
明确 写 明 SQL_CACHE 的 语句 才 放 入 查询 缓存 。 这 个 变量 可 以 是 会 话 级 别 的 也 可 以 是 
全 局 级 别 的 (会 话 级 别 和 全 局 级 别 的 概念 请 参考 第 8 章 )。 

query cache size 


查询 缓存 使 用 的 总 内 存 空间 ， 单 位 是 字 节 。 这 个 值 必须 是 1 024 的 整数 倍 ， 人 否则 
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MySQL 实际 分 配 的 数据 会 和 你 指定 的 略 有 不 同 。 

query_cache min res unit 
在 查询 缓存 中 分 配 内 存 块 时 的 最 小 单位 。 在 前 面 我 们 已 经 介绍 了 这 个 参数 ， 后 面 我 
们 还 将 进一步 讨论 它 。 

query cache limit 
MySQL 能 够 缓存 的 最 大 查询 结果 。 如 果 查 询 结 果 大 于 这 个 值 ， 则 不 会 被 缓存 。 因 
为 查询 缓存 在 数据 生成 的 时 候 就 开始 尝试 缓存 数据 ， 所 以 只 有 当 结 果 全 部 返回 后 ， 
MySQL 才 知 道 查询 结果 是 否 超出 限制 。 
如 果 超 出 ，MySQL 则 增加 状态 值 Qcache_not_cached, 并 将 结果 从 查询 缓存 中 删除 。 
如 果 你 事先 知道 有 很 多 这 样 的 情况 发 生 ， 那 么 建议 在 查询 语句 中 加 入 SQL_NO_CACHE 
来 避免 查询 缓存 带 来 的 额外 消耗 。 

query_cache wlock invalidate l 
如 果 某 个 数据 表 被 其 他 的 连接 锁 住 ， 是 否 仍然 从 查询 缓存 中 返回 结果 。 这 个 参数 软 
认 是 0FF， 这 可 能 在 一 定 程序 上 会 改变 服务 器 的 行为 ， 因 为 这 使 得 数据 库 可 能 返回 
其 他 线程 锁 住 的 数据 。 将 参数 设置 成 0ON， 则 不 会 从 缓存 中 读 取 这 类 数据 ， 但 是 这 可 
能 会 增加 锁 等 待 。 对 于 绝 大 数 应 用 来 说 无 须 注意 这 个 细节 ， 所 以 默认 设置 通常 是 没 
有 问题 的 。 


配置 查询 缓存 通常 很 简单 ， 但 是 如 果 想 知道 修改 这 些 参数 会 带 来 哪些 改变 ， 则 是 一 项 很 
复杂 的 工作 。 后 续 的 章 市 ， 我 们 将 帮助 你 来 决定 怎样 设置 这 些 参 数 。 


减少 碎片 

没什么 办 法 能 够 完全 避免 碎片 ， 但 是 选择 合适 的 query_cache_min_res_unit 可 以 帮 你 减 
少 由 碎片 导致 的 内 存 空 间 浪 费 。 设 置 合 适 的 值 可 以 平衡 每 个 数据 块 的 大 小 和 每 次 存储 结 
果 时 内 存 块 申请 的 次 数 。 这 个 值 太 小 ， 则 浪费 的 空间 更 少 ， 但 是 会 导致 更 频繁 的 内 存 块 
申请 操作 ; 如 果 这 个 值 设置 得 太 大 ， 那 么 碎片 会 很 多 。 调 整合 适 的 值 其 实 是 在 平衡 内 存 
浪费 和 CPU 消耗 。 


这 个 参数 的 最 合适 的 大 小 和 应 用 程序 的 查询 结果 的 平均 大 小 直接 相关 。 可 以 通过 内 存 实 
际 消耗 (query_cache size-Qcache free memory) 除 以 Qcache queries in cache 计算 


”单个 查询 的 平均 缓存 大 小 。 如 采 你 的 应 用 程序 的 查询 结果 很 不 均匀 ， 有 的 结果 很 大 ， 有 


的 结果 很 小 ， 那 么 碎片 和 反复 的 内 存 块 分 配 可 能 无 法 避免 。 如 果 你 发 现 缓存 一 个 非常 大 
的 结果 并 没有 什么 意义 (通常 确实 是 这 样 )， 那 么 你 可 以 通过 参数 query cache limit 限 
制 可 以 缓存 的 最 大 查询 结果 ， 借 此 大 大 减少 大 的 查询 结果 的 缓存 ， 最 终 减 少 内 存 碎片 的 
发 生 。 
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还 可 以 通过 参数 Qcache_free_blocks 来 观察 碎片 。 参 数 Qcache free blocks 反映 了 
查询 缓存 中 空闲 块 的 多 少 ， 在 图 7-4 的 配置 中 我 们 看 到 ， 有 两 个 空闲 块 。 最 糟糕 的 情况 
是 ， 任 何 两 个 存储 结果 的 数据 块 之 上 间 都 有 一 个 非常 小 的 空间 块 。 所 以 如 果 Qcache_free_ 
blocks 大 小 恰好 达到 Qcache_total_blocks/2， 那 么 查询 缓存 就 有 严重 的 碎片 问题 。 而 
如 果 你 还 有 很 多 空闲 块 ， 而 状态 值 Ocache_lowmem_prunes 还 不 断 地 增加 ， 则 说 明 由 于 碎 
片 导致 了 过 早 地 在 删除 查询 缓存 结果 。 


可 以 使 用 命令 FLUSH QUERY CACHE 完成 碎片 整理 。 这 个 命令 会 将 所 有 的 查询 缓存 重新 排 
序 ， 并 将 所 有 的 空闲 空间 都 聚集 到 查询 缓存 的 一 块 区 域 上 。 不 过 需要 注意 ， 这 个 命令 并 
不 会 将 查询 缓存 清空 ， 清 空 缓存 由 命令 RESET QUERY CACHE 完成 。FLUSH QUERY CACHE 
会 访问 所 有 的 查询 缓存 ， 在 这 期 间 任何 其 他 的 连接 都 无 法 访问 查询 缓存 ， 从 而 会 导致 服 
务 器 枝 死 一 段 时 间 ， 使 用 这 个 命令 的 时 候 需 要 特别 小 心 这 上 点。 另外， 根据 经 验 ， 建 议 保 
持 查询 缓存 空间 足够 小 ， 以 便 在 维护 时 可 以 将 服务 器 僵 死 控制 在 非常 短 的 时 间 内 。 


提高 查询 缓存 的 使 用 率 

如 果 查 询 缓存 不 再 有 碎片 问题 ， 但 你 仍然 发 现 命中 率 很 低 ， 还 可 能 是 查询 缓存 的 内 存 空 
间 太 小 导致 的 。 如 果 MySQL 无 法 为 一 个 新 的 查询 缓存 结果 的 时 候 ， 则 会 选择 删除 某 个 
老 的 缓存 结果 。 


当 由 于 这 个 原因 导致 删除 老 的 缓存 结果 时 ， 会 增加 状态 值 Qcache_ lowmem _ prunes。 如 果 
这 个 值 增 加 得 很 快 ， 那 么 可 能 是 由 下 面 两 个 原因 导致 的 : 


e。 如 果 还 有 很 多 空闲 块 ， 那 么 碎片 可 能 是 罪魁 祸首 (参考 前 面 的 小 节 ) 。 
© 如果 这 时 没什么 空间 块 了 ,就 说 明 在 这 个 系统 压力 下 ,你 分 配 的 查询 缓存 空间 不 够 大 。 
你 可 以 通过 检查 状态 值 Qcache_free_memory 来 查看 还 有 多 少 没 有 使 用 的 内 存 。 


如 采 空 闲 块 很 多 , ERRO, 也 没有 什么 由 于 内 存 导 致 的 缓存 失效 ,但 是 命中 率 仍 然 很 低 ， 
那么 很 可 能 说 明 ， 在 你 的 系统 压力 下 ， 碍 询 缓 存 并 没有 什么 好 处 。 一 定 是 什么 原因 导致 
查询 缓存 无 法 为 系统 服务 ， 例 如 有 大 量 的 更 新 或 者 查询 语句 本 身 都 不 能 被 缓存 。 


如 果 在 观察 命中 率 时 ， 仍 然 无 法 确定 查询 缓存 是 否 给 系统 带 来 了 好 处 ， 那 么 可 以 通过 禁 
用 它 ， 然 后 观察 系统 的 性 能 ， 再 重新 打开 它 ， 观 察 性 能 变化 ， 据 此 来 判断 查询 缓存 是 否 
给 系统 带 来 了 好 处 。 可 以 通过 将 query cache size 设 置 成 0， 来 关闭 查询 缓存 。( 改 变 
query_cache type 的 全 局 值 并 不 会 影响 已 经 打开 的 连接 ， 也 不 会 将 查询 缓存 的 内 存 释放 
BAB.) 你 还 可 以 通过 系统 测试 来 验证 ， 不 过 一 般 都 很 难 精确 地 模拟 实际 情况 。 


图 7-5 展示 了 一 个 用 来 分 析 和 配置 查询 缓存 的 流程 图 。 
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完成 。 该 场景 A 
不 适合 查询 组 在。 


TR 


67-5: 如 何 分 析 和 配置 查询 缓存 


7.12.5 InnoDB 和 查询 缓存 


因为 InnoDB 有 自己 的 MVCC 机 制 ， 所 以 相 比 其 他 存储 引擎 ，InnoDB 和 查询 缓存 的 交 
互 要 更 加 复杂 。MySQL 4.0 版 本 中 ， 在 事务 处 理 中 查询 缓存 是 被 禁用 的 ， 从 4.1 和 更 新 
的 InnoDB 版 本 开始 ，InnoDB 会 控制 在 一 个 事务 中 是 否 可 以 使 用 查询 缓存 ，InnoDB 会 
同时 控制 对 查询 缓存 的 读 (从 缓存 中 获取 查询 结果 ) 和 写 操 作 (向 查询 缓存 写 入 结果 )。 


事务 是 否 可 以 访问 查询 缓存 取决 于 当前 事务 ID ， 以 及 对 应 的 数据 表 上 是 否 有 锁 。 每 一 个 
InnoDB 表 的 内 存 数 据 字 典 都 保存 了 一 个 事物 ID 号 ， 如 果 当 前 事务 ID 小 于 该 事务 ID， 
则 无 法 访问 查询 缓存 。 


如 果 表 上 有 任何 的 锁 ， 那 么 对 这 个 表 的 任何 查询 语句 都 是 无 法 被 缓存 的 。 例 如 ， 某 个 事 
FÍT T SELECT FOR UPDATE 语句 ， 那 么 在 这 个 锁 释放 之 前 ， 任 何其 他 的 事务 都 无 法 从 
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查询 缓存 中 读 取 与 这 个 表 相 关 的 缓存 结果 。 


当 事 务 提交 时 ，InnoDB 持 有 锁 ， 并 使 用 当前 的 一 个 系统 事务 ID 更 新 当前 表 的 计数 器 。 
锁 一 定 程度 上 说 明 事务 需要 对 表 进 行 修改 操作 ， 当 然 有 可 能 事务 获得 锁 ， 却 不 进行 任何 
更 新 操作 ， 但 是 如 果 想 更 新 任何 表 的 内 容 ， 获 得 相应 锁 则 是 前 提 条 件 。InnoDB 将 每 个 
表 的 计数 器 设置 成 茶 个 事务 ID ， 而 这 个 事务 ID 就 代表 了 当前 存在 的 且 修 改 了 该 表 的 最 
大 的 事务 ID。 


那么 下 面 的 一 些 事 实 也 就 成 立 : 


。 所 有 大 于 该 表 计 数 器 的 事务 才 可 以 使 用 查询 缓存 。 例 如 当前 系统 的 事务 ID 是 5， 且 
事务 获取 了 该 表 的 某 些 记录 的 锁 ， 然 后 进行 事务 提交 操作 ， 那 么 事务 1 至 4， 都 不 
应 该 再 读 取 或 者 向 查询 缓存 写 入 任何 相关 的 数据 。 

。 ”该 表 的 计数 器 并 不 是 直接 更 新 为 对 该 表 进 行 加 锁 的 事务 ID， 而 是 被 更 新 成 一 个 系统 
事务 ID。 所 以 ， 会 发 现 该 事务 自身 后 续 的 更 新 操作 也 无 法 读 取 和 修改 查询 缓存 。 


查询 缓存 存储 、 检 索 和 失效 操作 都 是 在 MySQL 层面 完成 ，InnoDB 无 法 绕 过 或 者 延迟 这 
个 行为 。 但 InnoDB 可 以 在 事务 中 显 式 地 告诉 MySQL 何 时 应 该 让 某 个 表 的 查询 缓存 都 
失效 。 在 有 外 键 限 制 的 时 候 这 是 必须 的 ， 例 如 某 个 SQL 语句 有 ON DELETE CASCADE， 那 
么 相关 联 表 的 查询 缓存 也 是 要 一 起 失效 的 。 


MUE, Æ InnoDB 的 MVCC 架构 下 ， 当 某 些 修改 不 影响 其 他 事务 读 取 一 致 的 数据 时 ， 
是 可 以 使 用 查询 缓存 的 。 但 是 这 样 实现 起 来 会 非常 复杂 ，InnoDB 做 了 一 个 简化 ， 让 所 
有 有 加 锁 操作 的 事务 都 不 使 用 任何 查询 缓存 ， 这 个 限制 其 实 并 不 是 必须 的 。 


7.12.6 通用 查询 缓存 优化 
库 表 结构 的 设计 、 查 询 语 名 、 应 用 程序 设计 都 可 能 会 影响 到 查询 缓存 的 效率 。 除 了 前 文 


介绍 的 之 外 ， 这 里 还 有 一 些 要 所 需要 广 意 : 


© 用 多 个 小 表 代 赫 一 个 大 表 对 查询 缓存 有 好 处 。 这 个 设计 将 会 使 得 失效 策略 能 够 在 一 
个 更 合适 的 粒度 上 进行 。 当 然 ， 不 要 让 这 个 原则 过 分 影响 你 的 设计 ， 毕 竞 其 他 的 一 
些 优势 可 能 很 容易 就 弥补 了 这 个 问题 。 

。 批量 写 入 时 只 需要 做 一 次 缓存 失效 ， 所 以 相 比 单条 写 人 效率 更 好 。( 另 外 需要 注意 ， 
不 要 同时 做 延迟 写 和 批量 写 ， 否 则 可 能 会 因为 失效 导致 服务 器 僵 死 较 长 时 间 。) 

© ”因为 缓存 空间 太 大 ， 在 过 期 操作 的 时 候 可 能 会 导致 服务 器 僵 死 。 一 个 简单 的 解决 办 
法 就 是 控制 缓存 空间 的 大 小 (query_cache_size), 或 者 直接 禁用 查询 缓存 。 

。 无 法 在 数据 库 或 者 表 级 别 控制 查询 缓存 ， 但 是 可 以 通过 SQL_CACHE 和 SQL_NO_CACHE 
来 控制 某 个 SELECT 语句 是 否 需 要 进行 缓存 。 你 还 可 以 通过 修改 会 话 级 别 的 变量 
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query cache type 来 控制 查询 缓存 。 

e。 ”对 于 写 密 集 型 的 应 用 来 说 ， 直 接 禁 用 查询 缓存 可 能 会 提高 系统 的 性 能 。 关 闭 查询 组 
存 可 以 移 除 所 有 相关 的 消耗 。 例 如 将 query_cache_size 设置 成 0， 那 么 至 少 这 部 分 
就 不 再 消耗 任何 内 存 了 。 

e。 因为 对 互 斥 信号 量 的 竞争 ， 有 时 直接 关闭 查询 缓存 对 读 密 集 型 的 应 用 也 会 有 好 处 。 
如 果 你 希望 提高 系统 的 并 发 ， 那 么 最 好 做 一 个 相关 的 测试 ， 对 比 打 开 和 关闭 查询 缓 
存 时 候 的 性 能 差异 。 


如 果 不 想 所 有 的 查询 都 进入 查询 缓存 ， 但 是 又 希望 某 些 查询 走 查询 缓存 ， 那 么 可 以 将 
query_cache_type 设置 成 DEMAND， 然 后 在 希望 缓存 的 查询 中 加 上 SQL_CACHE。 这 虽然 需 
要 在 查询 中 加 入 一 些 额 外 的 语法 ,但 是 可 以 让 你 非常 自由 地 控制 哪些 查询 需要 被 缓存 。 
相反 ， 如 果 希 望 缓存 多 数 查 询 ， 而 少数 查询 又 不 希望 缓存 ， 那 么 你 可 以 使 用 关键 字 SQL_ 
NO CACHE。 


7.12.7 查询 缓存 的 蔡 代 方案 

MySQL 查询 缓存 工作 的 原则 是 : 执行 查询 最 快 的 方式 就 是 不 去 执行 ， 但 是 查询 仍然 需 
要 发 送 到 服务 器 端 ， 服 务 器 也 还 需要 做 一 点 点 工作 。 如 果 对 于 某 些 查询 完全 不 需要 与 服 
务 器 通信 效果 会 如 何 呢 ? 这 时 客户 端的 缓存 可 以 很 大 程度 上 帮 你 分 担 MySQL 服务 器 的 
压力 。 我 们 将 在 第 14 章 详细 介绍 更 多 关于 缓存 的 内 容 。 


7.13 总 结 


本 章 详 细 介 绍 了 前 面 各 个 章节 中 提 到 的 一 些 MySQL 特性 。 这 里 我 们 将 再 来 回顾 一 下 其 
中 的 一 些 重 皮 内 容 。 


分 区 表 
分 区 表 是 一 种 粗 粒 度 的 、 简 易 的 索引 策略 ， 适 用 于 大 数据 量 的 过 滤 场 景 。 最 适合 的 
场景 是 ， 在 没有 合适 的 索引 时 ， 对 其 中 几 个 分 区 进行 全 表 扫 描 ， 或 者 是 只 有 一 个 分 
区 和 索引 是 热点 ， 而 且 这 个 分 区 和 索引 能 够 都 在 内 存 中 ; 限制 单 表 分 区 数 不 要 超过 
150 个 ， 并 且 注 意 某 些 导 致 无 法 做 分 区 过 滤 的 细节 ， 分 区 表 对 于 单条 记录 的 查询 并 
没有 什么 优势 ， 需 要 注意 这 类 查询 的 性 能 。 

视图 
对 好 几 个 表 的 复杂 查询 ， 使 用 视图 有 时 候 会 大 大 简化 问题 。 当 视图 使 用 临时 表 时 ， 


无 法 将 WHERE 条 件 下 推 到 各 个 具体 的 表 ， 也 不 能 使 用 任何 索引 ， 需 要 特别 注意 这 类 


查询 的 性 能 。 如 果 为 了 便利 ， 使 用 视图 是 很 合适 的 。 
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外 键 限制 会 将 约束 放 到 MySQL 中 ， 这 对 于 必须 维护 外 键 的 场景 ， 性 能 会 更 高 。 不 
”过 这 也 会 带 来 额外 的 复杂 性 和 额外 的 索引 消耗 ， 还 会 增加 多 表 之 间 的 交互 ， 会 导致 
系统 中 更 多 的 锁 和 竞争 。 外 键 可 以 被 看 作 是 一 个 确保 系统 完整 性 的 额外 的 特性 ， 但 
是 如 果 设 计 的 是 一 个 高 性 能 的 系统 ， 那 么 外 键 就 显得 很 禾 肿 了 。 很 多 人 在 更 在 意 系 
统 的 性 能 的 时 候 都 不 会 使 用 外 键 ， 而 是 通过 应 用 程序 来 维护 。 

存储 过 程 | 
MySQL 本 身 实现 了 存储 过 程 、 触 发 器 、 存 储 函数 和 事件 ， 老 实说 ， 这 些 特 性 并 没 什 
么 特别 的 。 而 且 对 于 基于 语句 的 复制 还 有 很 多 问题 。 通 常 ， 使 用 这 些 特性 可 以 帮 你 
节省 很 多 的 网 络 开销 一 一 很 多 情况 下 ， 减 少 网 络 开销 可 以 大 大 提升 系统 的 性 能 。 在 
某 些 经 典 的 场景 下 你 可 以 使 用 这 些 特性 (例如 中 心 化 业务 逻辑 、 绕 过 权限 系统 ,等 等 )， 
但 需要 注意 在 MySQL 中 ， 这 些 特性 并 没有 别 的 数据 库 系 统 那 么 成 熟 和 全 面 。 

ee ES 
当 查 询 语 句 的 解析 和 执行 计划 生成 消耗 了 主要 的 时 间 ， 那 么 绑 定 变量 可 以 在 一 定 程 
度 上 解决 问题 。 因 为 只 需要 解析 一 次 ， 对 于 大 量 重复 类 型 的 查询 语句 ， 性 能 会 有 很 
大 的 提高 。 另 外 ， 执 行 计划 的 缓存 和 传输 使 用 的 二 进 制 协议 ， 这 都 使 得 绑 定 变量 的 
方式 比 普通 SQL 语句 执行 的 方式 要 更 快 。 

插件 
使 用 C 或 者 C++ 编写 的 插件 可 以 让 你 最 大 程度 地 扩展 MySQL 功能 。 插 件 功能 非常 
强大 ， 我 们 已 经 编写 了 很 多 UDF 和 插件 ， 在 MySQL 中 解决 了 很 多 问题 。 

字符 集 
字符 集 是 一 种 字 节 到 字符 之 间 的 映射 ， 而 校对 规则 是 指 一 个 字符 集 的 排序 方法 。 很 
多 人 都 使 用 Latinl (默认 字符 集 ， 对 英语 和 某 些 欧洲 语言 有 效 ) 或 者 UTF-8。 如 果 
使 用 的 是 UTF-8， 那 么 在 使 用 临时 表 和 缓冲 区 的 时 候 需 要 注意 : MySQL 会 按照 每 个 
字符 三 个 字 节 的 最 大 占用 空间 来 分 配 存储 空间 ， 这 可 能 消耗 更 多 的 内 存 或 者 磁盘 空 
间 。 注 意 让 字符 集 和 MySQL 字符 集 配置 相符 ， 否 则 可 能 会 由 于 字符 集 转换 让 某 些 
索引 无 法 正常 使 用 。 

会 文 索引 
在 本 书 编写 的 时 候 只 有 MyISAM 支持 全 文 索引 ， 不 过 据说 从 MySQL 5.6 开始 ， 
InnoDB 也 将 支持 全 文 索引 。MyISAM 因为 在 锁 粒 度 和 崩溃 恢复 上 的 缺点 ， 使 得 在 
大 型 全 文 索引 场景 中 基本 无 法 使 用 。 这 时 ， 我 们 通常 帮助 客户 构建 和 使 用 Sphinx 来 
解决 全 文 索引 的 问题 。 

XA 事务 
很 少 有 人 用 MySQL 的 XA 事务 特性 。 除 非 你 真正 明白 参数 innodb_support_xa 的 
意义 ， 否 则 不 要 修改 这 个 参数 的 值 ， 并 不 是 只 有 显 式 使 用 XA 事务 时 才 需 要 设置 这 
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个 参数 。InnoDB 和 二 进 制 日 志 也 是 需要 使 用 XA 事务 来 做 协调 的 ， 从 而 确保 在 系统 
崩溃 的 时 候 ， 数 据 能 够 一 致 地 恢复 。 
查询 缓存 

完全 相同 的 查询 在 重复 执行 的 时 候 ， 查 询 缓存 可 以 立即 返回 结果 ， 而 无 须 在 数据 库 
中 重新 执行 一 次 。 根 据 我 们 的 经 验 ， 在 高 并 发 压力 环境 中 查询 缓存 会 导致 系统 性 
能 的 下 降 ， 甚 至 僵 死 。 如 果 你 一 定 要 使 用 查询 缓存 ， 那 么 不 要 设置 太 大 内 存 ， 而 且 
只 有 在 明确 收益 的 时 候 才 使 用 。 那 该 如 何 判断 是 否 应 该 使 用 查询 缓存 呢 ? 建议 使 用 
Percona Server, 观察 更 细致 的 日 志 , 并 做 一 些 简 单 的 计算 。 还 可 以 查看 缓存 命中 率 ( 并 
不 总 是 有 用 )、“INSERTS 和 SELECT 比率 ”( 这 个 参数 也 并 不 直观 )、 或 者 “命中 和 
写 入 比率 ”( 这 个 参考 意义 较 大 )。 查 询 缓存 是 一 个 非常 方便 的 缓存 ， 对 应 用 程序 完 
全 透明 ， 无 须 任 何 额外 的 编码 ， 但 是 ， 如 果 和 希望 有 更 高 的 缓存 效率 ， 我 们 建议 使 用 
memcached 或 者 其 他 类 似 的 解决 方案 。 第 14 章 介 绍 了 更 多 的 细 市 供 大 家 参考 。 
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优化 服务 性 公 置 


在 这 一 章 ， 我 们 将 解释 为 MySQL 服务 器 创建 一 个 靠 谱 的 配置 文件 的 过 程 。 这 是 一 个 很 
绕 的 过 程 ， 有 很 多 有 意思 的 关注 点 和 值得 关注 的 思路 。 关 注 这 些 点 很 有 必要 ， 因 为 创建 
一 个 好 配置 的 最 快 方法 不 是 从 学 习 配 置 项 开始 ， 也 不 是 从 间 哪 个 配置 项 应 该 怎么 设置 或 
者 怎么 修改 开始 ， 更 不 是 从 检查 服务 器 行为 和 询问 哪个 配置 项 可 以 提升 性 能 开始 。 最 好 
是 从 理解 MySQL 内 核 和 行为 开始 。 然 后 可 以 利用 这 些 知识 来 指导 配置 MySQL。 最 后 ， 
可 以 将 想 要 的 配置 和 当前 配置 进行 比较 ， 然 后 纠正 重要 并 且 有 价值 的 不 同 之 处 。 


人 们 经 常 问 , “我 的 服务 器 有 32GB 内 存 ，12 核 CPU， 怎 样 配置 最 好 ? ”很 遗憾 ， 问 题 
没 这 么 简单 。 服 务 器 的 配置 应 该 符合 它 的 工作 负载 、 数 据 ， 以 及 应 用 需求 ， 并 不 仅仅 看 
硬件 的 情况 。 


MySQL 有 大 量 可 以 修改 的 参数 一 一 但 不 应 该 随便 去 修改 。 通 常 只 需要 把 基本 的 项 配置 
正确 (大 部 分 情况 下 只 有 很 少 一 些 参数 是 真正 重要 的 )， 应 该 将 更 多 的 时 间 花 在 schema 
的 优化 、 索 引 ， 以 及 查询 设计 上 。 在 正确 地 配置 了 MySQL 的 基本 配置 项 之 后 ， 再 花 力 
气 去 修改 其 他 配置 项 的 收益 通常 就 比较 小 了 。 


从 男 一 方面 来 说 ， 没 用 的 配置 导致 萃 在 风险 的 可 能 更 大 。 我 们 磁 到 过 不 止 一 个 “高 度 调 
优 ，” 过 的 服务 器 不 停 地 月 涡 ， 停止 服 务 或 者 运行 缓慢 ， 结 果 都 是 因为 错误 的 配置 导致 的 。 
我 们 将 花 一 点 时 间 来 解释 为 什么 会 发 生 这 种 情况 ， 并 且 告 诉 大 家 什么 是 不 该 做 的 。 


那么 什么 是 该 做 的 呢 ? 确保 基本 的 配置 是 正确 的 ， 例 如 InnoDB 的 Buffer Pool 和 日 志文 
件 缓存 大 小 ， 如 果 想 防止 出 问题 (提醒 一 下 ， 这 样 做 通常 不 能 提升 性 能 一 一 它们 只 能 避 
免 问 题 )， 就 设置 一 个 比较 安全 和 稳健 的 值 ， 剩 下 的 配置 就 不 用 管 了 。 如 果 碰 到 了 问题 ， 
可 以 使 用 第 3 章 提 到 的 技巧 小 心地 进行 诊断 。 如 果 问 题 是 由 于 服务 器 的 某 部 分 导致 的 ， 
而 这 恰好 可 以 通过 某 个 配置 项 解决 ， 那 么 需要 做 的 就 是 更 改 配置 。 





325 


[3322> 有 时 候 ， 在 某 些 特定 的 场景 下 ， 也 有 可 能 设置 某 些 特殊 的 配置 项 会 有 显著 的 性 能 提升 。 
但 无 论 如 何 ， 这 些 特 殊 的 配置 项 不 应 该 成 为 服务 器 基本 配置 文件 的 一 部 分 。 只 有 当 发 现 
特定 的 性 能 问题 才 应 该 设置 它们 。 这 就 是 为 什么 我 们 不 建议 通过 寻找 有 问题 的 地 方 修改 
”配置 项 的 原因 。 如 果 有 些 地 方 确 实 需要 提升 ， 也 需要 在 查询 响应 时 间 上 有 所 体现 。 最 好 
是 从 查询 语句 和 啊 应 时 间 入 和 手 来 开始 分 析 问 题 ， 而 不 是 通过 配置 项 。 这 可 以 节省 大 量 的 
时 间 ， 避 免 很 多 的 问题 。 


男 一 个 市 省 时 间 和 避免 麻烦 的 好 办 法 是 使 用 默认 配置 ， 除 非 是 明确 地 知道 默认 值 会 有 问 
题 。 很 多 人 都 是 在 默认 配置 下 运行 的 ， 这 种 情况 非常 普遍 。 这 使 得 默认 配置 是 经 过 最 多 
实际 测试 的 。 对 配置 项 做 一 些 不 必要 的 修改 可 能 会 遇 到 一 些 意料 之 外 的 bug。 


8.1 MySQL 配置 的 工作 原理 


在 讨论 如 何 配置 MySQL 之 前 ， 我 们 先 来 解释 一 下 MySQL 的 配置 机 制 。MySQL 对 配置 
要 求 非常 宽松 , 但 是 下 面 这 些 建议 可 能 会 为 你 节省 大 量 的 工作 和 时 间 。 


首先 应 该 知道 的 是 MySQL 从 哪里 获得 配置 信息 : 命令 行 参数 和 配置 文件 。 在 类 UNIX 
系统 中 ， 配 置 文件 的 位 置 一 般 在 /etc/my.cnf 或 者 /etc/mysql/my.cnf。 如 果 使 用 操作 系统 的 
局 动 脚本 ， 这 通 稍 是 唯一 指定 配置 设置 的 地 方 。 如 果 手 动 启动 MySQL， 例 如 在 测试 安 
装 时 ， 也 可 以 在 命令 行 指定 设置 。 实 际 上 ， 服 务 器 会 读 取 配置 文件 的 内 容 ， 删 除 所 有 注 
释 和 换行 ， 然 后 和 命令 行 选项 一 起 处 理 。 


ov ao 

pe) ”关于 术语 的 说 明 ; 因为 很 多 MySQL 命令 行 选项 跟 服 务 器 变量 相同 ， 我 们 有 时 把 选 

E 。 项 和 变量 替换 使 用 。 大 部 分 变量 和 它们 对 应 的 命令 行 选项 名 称 一 样 ， 但 是 有 一 些 例 
外 。 例 如 ，--memlock 选项 设置 了 locked_in memory 变量 。 


任何 打算 长 期 使 用 的 设置 都 应 该 写 到 全 局 配置 文件 ， 而 不 是 在 命令 行 特别 指定 。 否 则 ， 
如 采 侦 然 在 启动 时 志 了 设置 就 会 有 风险 。 把 所 有 的 配置 文件 放 在 同一 个 地 方 以 方便 检查 
也 是 个 好 办 法 。 


一 定 要 清楚 地 知道 服务 器 配置 文件 的 位 置 ! 我 们 见 过 有 些 人 尝试 修改 配置 文件 但 是 不 生 
效 ， 因 为 他 们 修改 的 并 不 是 服务 器 读 取 的 文件 ， 例 如 Debian 下 ，/etc/mysql/my.cnf 才 是 

L333 > MySQL 读 取 的 配置 文件 ， 而 不 是 /etc/my.cnf。 有 时 候 好 几 个 地 方 都 有 配置 文件 ， 也 许 是 
因为 之 前 的 系统 管理 员 也 没 搞 清楚 情况 (因此 在 各 个 可 能 的 位 置 都 放 了 一 份 )。 如 果 不 
知道 当前 使 用 的 配置 文件 路 径 ， 可 以 尝试 下 面 的 操作 : 
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$ which mysqld 

/usr/sbin/mysqld 

$ /usr/sbin/mysqld --verbose --help | grep -A 1 ‘Default options’ 

Default options are read from the following files in the een order: 

/etc/mysql/my.cnf ~/.my.cnf /usr/etc/my.cnf 
对 于 服务 器 上 只 有 一 个 MySQL 实例 的 典型 安装 ， 这 个 命令 很 有 用 。 也 可 以 设计 更 复杂 
的 配置 ， 但 是 没有 标准 的 方法 告诉 你 怎么 来 做 。MySQL 发 行 版 包含 了 一 个 现在 废弃 了 
的 程序 ， 叫 mysqlmanager, 可 以 在 一 个 有 多 个 独立 部 分 的 配置 文件 上 运行 多 个 实例 。( 现 
在 已 经 被 一 样 古老 的 mysqld_multi 脚本 替代 。) 然而 许多 操作 系统 发 行 版 本 在 启动 脚本 
中 并 不 包含 或 使 用 这 个 程序 。 实 际 上 ， 很 多 系统 甚至 没有 使 用 MySQL 提供 的 启动 脚本 。 


配置 文件 通常 分 成 多 个 部 分 ， 每 个 部 分 的 开头 是 一 个 用 方 括号 括 起 来 的 分 段 名 称 。 
MySQL 程序 通常 读 取 跟 它 同名 的 分 段 部 分 ， 许 多 客户 端 程序 还 会 读 取 client 部 分 ， 这 是 
一 个 存放 公用 设置 的 地 方 。 服 务 器 通常 读 取 mysqld 这 一 段 。 一 定 要 确认 配置 项 放 在 了 文 
件 正确 的 分 段 中 ， 否 则 配置 是 不 会 生效 的 。 


ee 单词 之 间 用 下 画 线 或 横 线 隔 开 。 下 面 的 例子 是 等 价 的 ， 并 且 可 
能 在 命令 行 和 配置 文件 中 都 看 到 这 两 种 格式 : 


/usr/sbin/mysqld --auto-increment-offset=5 
/usr/sbin/mysqld --auto_increment_offset=5 


我 们 建议 使 用 一 种 固定 的 风格 。 这 样 在 配置 文件 中 搜索 配置 项 时 会 容易 得 多 。 


配置 项 可 以 有 多 个 作用 域 。 有 些 设置 是 服务 器 级 的 (全 局 作用 域 )， 有 些 对 每 个 连接 是 
不 同 的 (会 话 作用 域 )， 剩 下 的 一 些 是 对 象 级 的 。 许 多 会 话 级 变量 跟 全 局 变量 相等 ， 可 
以 认为 是 上 默认 值 。 如 采 改 变 会 话 级 变量 ， 它 只 影 啊 改 动 的 当前 连接 ， 当 连接 关闭 时 所 有 
参数 变更 都 会 失效 。 下 面 有 一 些 例子 ， 你 应 该 清楚 这 些 不 同类 型 的 行为 : 


e query cache size 变量 是 全 局 的 。 

e sort_buffer_size 变量 默认 是 全 局 相同 的 ， 但 是 每 个 线程 里 也 可 以 设置 。 

e join buffer_size 变量 也 有 全 局 默认 值 且 每 个 线程 是 可 以 设置 的 ， 但 是 若 一 个 查询 
中 关联 多 张 表 ， 可 以 为 每 个 关联 分 配 一 个 关联 缓冲 (join buffer) ， 所 以 每 个 查询 可 
能 有 多 个 关联 缓冲 。 


另外 ， 除 了 在 配置 文件 中 设置 变量 ， 有 很 多 变量 〈 但 不 是 所 有 ) 也 可 以 在 服务 器 运行 
时 修改 。MySQL 把 这 些 归 为 动态 配置 变量 。 下 面 的 语句 展示 了 动态 改变 sort_buffer_ 
size 的 会 话 值 和 全 局 值 的 不 同方 式 : 
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SET sort_buffer_size = <value>; 
SET GLOBAL sort buffer size = <value>; 
SET @@sort_buffer_size := <value>; 


SET @@session.sort_buffer_size := <value>; 


SET @@global.sort_buffer size := <value>; 


如 采 动 态 地 设置 变量 ， 要 注意 MySQL 关闭 时 可 能 委 失 这 些 设置 。 如 果 想 保持 这 些 设置 ， 
还 是 需要 修改 配置 文件 。 


如 果 在 服务 器 运行 时 修改 了 变量 的 全 局 值 ， 这 个 值 对 当前 会 话 和 其 他 任何 已 经 存在 的 会 
话 都 不 起 效果 ， 这 是 因为 会 话 的 变量 值 是 在 连接 创建 时 从 全 局 值 初 始 化 来 的 。 在 每 次 变 
更 之 后 ， 应 该 检查 SHOW GLOBAL VARIABLES 的 输出 ， 确 认 已 经 按照 期 望 变更 了 。 


有 些 变量 使 用 了 不 同 的 单位 ， 所 以 必须 知道 每 个 变量 的 正确 单位 。 例 如 ，tabtLe cache 
变量 指定 了 表 可 以 被 缓存 的 数量 ， 而 不 是 表 可 以 被 缓存 的 字 节 数 。key_buffer size NI 
是 以 字 节 为 单位 ， 还 有 一 些 其 他 变量 指定 的 是 页 的 数量 或 者 其 他 单位 ， 例 如 百分比 。 


许多 变量 可 以 通过 后 绥 指 定单 位 ， 例 如 1M 表 示 一 百 万 字 节 。 然 而 ， 这 只 能 在 配置 文件 或 
者 作为 命令 行 参数 时 有 效 。 当 使 用 SQL 的 SET 命令 时 ， 必 须 使 用 数字 值 1048576， 或 者 
1024*1024 这 样 的 表达 式 。 但 在 配置 文件 中 不 能 使 用 表达 式 。 


有 个 特殊 的 值 可 以 通过 SET 命令 赋值 给 变量 : DEFAULT。 把 这 个 值 赋 给 会 话 级 变量 可 以 把 
变量 改 为 使 用 全 局 值 ， 把 它 赋 值 给 全 局 变量 可 以 设置 这 个 变量 为 编译 内 置 的 默认 值 (不 
是 在 配置 文件 中 指定 的 值 )。 当 需要 重 置 会 话 级 变量 的 值 回 到 连接 刚 打 开 的 时 候 ， 这 是 
很 有 用 的 。 建 议 不 要 对 全 局 变量 这 么 用 ， 因 为 可 能 它 做 的 事 不 是 你 希望 的 ， 它 不 会 把 值 
设置 到 服务 器 刚 局 动 时 候 的 那个 状态 。 | 


8.1.2 设置 变量 的 副作用 
动态 设置 变量 可 能 导致 意外 的 副作用 ， 例 如 从 缓冲 中 刷新 脏 块 。 务 必 小 心 那 些 可 以 在 线 
更 改 的 设置 ， 因 为 它们 可 能 导致 数据 库 做 大 量 的 工作 。 


有 时 可 以 通过 名 称 推断 一 个 变量 的 作用 。 例 如 ，max_heap table size 的 作用 就 像 听 起 
来 那样 : 它 指 定 隐 式 内 存 临 时 表 最 大 允许 的 大 小 。 然 而 ， 命 名 约定 并 不 完全 一 样 ， 所 以 
不 能 总 是 通过 看 名 称 来 猜测 一 个 变量 有 什么 效果 。 


让 我 们 来 看 一 些 常 用 的 变量 和 动态 修改 它们 的 效果 。 


key buffer size 
设置 这 个 变量 可 以 一 次 性 为 键 缓冲 区 (key buffer， 也 叫 键 缓存 key cache) 分 配 所 
有 指定 的 空间 。 然 而 ， 操 作 系 统 不 会 真 的 立刻 分 配 内 存 ， 而 是 到 使 用 时 才 真 正 分 配 。 
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例如 设置 键 缓冲 的 大 小 为 1GB， 并 不 意味 着 服务 器 立刻 分 配 1GB 的 内 存 。( 我 们 下 
一 章 会 讨论 如 何 查看 服务 器 的 内 存 使 用 。) | 

MySQL 允许 创建 多 个 键 缓存 ， 这 一 章 后 面 我 们 会 探讨 这 个 问题 。 如 果 把 非 默 认 键 组 
存 的 这 个 变量 设置 为 0，MySQL 将 丢弃 缓存 在 该 键 缓存 中 的 索引 ， 转 而 使 用 默认 键 
缓存 ， 并 且 当 不 再 有 任何 引用 时 会 删除 该 键 缓存 。 为 一 个 不 存在 的 键 缓存 设置 这 个 
变量 ， 将 会 创建 新 的 键 缓存 。 对 一 个 已 经 存在 的 键 缓存 设置 非 零 值 ， 会 导致 刷新 该 
键 缓存 的 内 容 。 这 会 阻塞 所 有 尝试 访问 该 键 缓 存 的 操作 ， 直 到 刷新 操作 完成 。 

table cache size 
设置 这 个 变量 不 会 立即 生效 一 一 会 延迟 到 下 次 有 线程 打开 表 才 有 效果 。 当 有 线程 打 
开 表 时 ，MySQL 会 检查 这 个 变量 的 值 。 如 果 值 大 于 缓存 中 的 表 的 数量 ， 线 程 可 以 把 
最 新 打开 的 表 放 入 缓存 ; 如 果 值 比 缓存 中 的 表 数 小 ，MySQL 将 从 缓存 中 删除 不 常 使 
用 的 表 。 

thread_cache_size | 
设置 这 个 变量 不 会 立即 生效 一 一 将 在 下 次 有 连接 锌 关闭 时 产生 效果 。 当 有 连接 被 关 
ART, MySQL 检查 缓存 中 是 否 还 有 空间 来 缓存 线程 。 如 果 有 空间 ， 则 缓存 该 线程 以 
备 下 次 连接 重用 ; 如 果 没 有 空间 ， 它 将 销毁 该 线程 而 不 再 缓存 。 在 这 个 场景 中 ， 缓 
存 中 的 线程 数 ， 以 及 线程 缓存 使 用 的 内 存 ， 并 不 会 立刻 减少 ; 只 有 在 新 的 连接 删除 
缓存 中 的 一 个 线程 并 使 用 后 才 会 减少 。(MySQL 只 在 关闭 连接 时 才 在 缓存 中 增加 线 
程 ， 只 在 创建 新 连接 时 才 从 缓存 中 删除 线程 。) 

query_cache_size 
MySQL 在 启动 的 时 候 ， 一 次 性 分 配 并 且 初 始 化 这 块 内 存 。 如 果 修 改 这 个 变量 (即使 
设置 为 与 当前 一 样 的 值 )，MySQL 会 立刻 删除 所 有 缓存 的 查询 ， 重 新 分 配 这 片 缓存 
到 指定 大 小 ， 并 且 重 新 初始 化 内 存 。 这 可 能 花费 较 长 的 时 间 ， 在 完成 初始 化 之 前 服 
务 器 都 无 法 提供 服务 ， 因 为 MySQL 是 逐个 清理 缓存 的 查询 ， 不 是 一 次 性 全 部 删 掉 。 

read_buffer_size 
MySQL 只 会 在 有 查询 需要 使 用 时 才 会 为 该 缓存 分 配 内 存 ， 并 且 会 一 次 性 分 配 该 参数 
指定 大 小 的 全 部 内 存 。 

read rnd _ buffer size 
MySQL 只 会 在 有 查询 需要 使 用 时 才 会 为 该 缓存 分 配 内 存 ， 并 且 只 会 分 配 需要 的 内 存 
大 小 而 不 是 全 部 指定 的 大 小 。(max_read rnd buffer size 这 个 名 字 更 能 表达 这 个 
变量 实际 的 含义 。) 

sort buffer size 
MySQL 只 会 在 有 查询 需要 做 排序 操作 时 才 会 为 该 缓存 分 配 内 存 。 然 后 ， 一 旦 需要 排 
序 ，MySQL 就 会 立刻 分 配 该 参数 指定 大 小 的 全 部 内 存 ， 而 不 管 该 排序 是 否 需 要 这 么 
大 的 内 存 。 
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我 们 在 其 他 地 方 也 对 这 些 参数 做 过 更 多 细节 的 说 明 ， 这 里 不 是 一 个 完整 的 列表 。 这 里 的 
目的 只 是 简单 地 告诉 大 家 ， 当 修改 一 些 常见 的 变量 时 ， 会 有 哪些 期 望 的 行为 发 生 。 


对 于 连接 级 别 的 设置 ， 不 要 轻易 地 在 全 局 级 别 增加 它们 的 值 ， 除 非 确认 这 样 做 是 对 的 。 
有 一 些 缓存 会 一 次 性 分 配 指 定 大 小 的 全 部 内 存 ， 而 不 管 实际 上 是 否 需 要 这 么 大 ， 所 以 一 
个 很 大 的 全 局 设置 可 能 导致 浪费 大 量 内 存 。 更 好 的 办 法 是 ， 当 查询 需要 时 在 连接 级 别 单 
独 调 大 这 些 值 。 


最 第 见 的 例子 是 sort_buffer_size， 该 参数 控制 排序 操作 的 缓存 大 小 ， 应 该 在 配置 文件 
里 把 它 配置 得 小 一 些 , 然 后 在 某 些 查询 需要 排序 时 ,再 在 连接 中 把 它 调 大 。 在 分 配 内 存 后 ， 
MySQL 会 执行 一 些 初始 化 的 工作 。 


另外 ， 即 使 是 非常 小 的 排序 操作 ， 排 序 缓存 也 会 分 配 全 部 大 小 的 内 存 ， 所 以 如 果 把 参数 
设置 得 超过 平均 排序 需求 太 多 ， 将 会 浪费 很 多 内 存 ， 增 加 额外 的 内 存 分 配 开销 。 许 多 读 
者 认为 内 存 分 配 是 一 个 很 简单 的 操作 ， 听 到 内 存 分 配 的 代价 可 能 会 很 吃惊 。 不 需要 深入 
很 多 技术 细 市 就 可 以 讲 清 楚 为 什么 内 存 分 配 也 是 昂贵 的 操作 ， 内 存 分 配 包括 了 地 址 空间 
的 分 配 ， 这 相对 来 说 是 比较 昂贵 的 。 特 别 在 Linux 上 ， 内 存 分 配 根据 大 小 使 用 多 种 开销 
不 同 的 策略 。 


总 的 来 说 ， 设 置 很 大 的 排序 缓存 代价 可 能 非常 高 ， 所 以 除非 确定 必须 要 这 么 大 ， 否 则 不 
要 增加 排序 缓存 的 大 小 。 


如 果 查 询 必 须 使 用 一 个 更 大 的 排序 缓存 才能 比较 好 地 执行 ， 可 以 在 查询 执行 前 增加 
sort_buffer_size 的 值 ， 执 行 完成 后 恢复 为 DEFAULT。 


下 面 是 一 个 实际 的 例子 : 


SET @@session.sort_buffer_size := <value>; 
-- Execute the query... 
SET @@session.sort_buffer_size := DEFAULT; 


可 以 将 类 似 的 代码 封装 在 国 数 中 以 方便 使 用 。 其 他 可 以 设置 的 单个 连接 级 别 的 变量 
有 read _buffer_size, read_rnd_buffer_size, tmp table size, LAR myisam sort 


buffer_size (在 修复 表 的 操作 中 会 用 到 )。 
如 果 有 需要 也 可 以 保存 并 还 原 原 来 的 自 定 义 值 ， 可 以 像 下 面 这 样 做 : 


SET @saved_<unique_variable_ name> := @@session.sort buffer size; 
SET @@session.sort_buffer_size := <value>; 

-- Execute the query... 

SET @@session.sort_buffer_ size := @saved_<unique_variable_name>; 
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wa i 
一 J] 排序 缓冲 大 小 是 关注 的 众多 “ 调 优 ”中 一 个 设置 。 一 些 人 似乎 认为 越 大 越 好 ， 我 
Wy, 们 站 理由 过 各 这 个 变量 设 为 1GB 的 。 这 可 能 导 下 服务 器 委 分 配 太 多 肉 存 而 
“OS! 溃 ， 或 者 为 查询 初始 化 排序 缓存 时 消耗 大 量 的 CPU， 这 不 是 什么 出 平 意 料 的 事 。 从 
MySQL 的 Bug 37359 可 以 看 到 有 关于 这 个 问题 的 细 证 。 
不 要 把 排序 缓存 大 小 放 在 太 重 要 的 位 置 。 查 询 真 的 需要 128MB 的 内 存 来 排序 10 行 
数据 然后 返回 给 客户 端 吗 ? 思考 一 下 查询 语句 是 什么 类 型 的 排序 、 多 大 的 排序 ， 首 
先 考 虑 通过 索引 和 SQL 写法 来 避免 排序 (看 第 5 章 和 第 6 章 ) ， 这 比 调 优 排序 缓存 
要 快 得 多 。 并 且 应 该 仔细 分 析 查 询 开 销 ， 看 看 排序 是 否 是 无 论 如 何 都 需要 重点 关注 
的 部 分 。 第 3 章 有 一 个 例子 ， 一 个 查询 执行 了 一 个 排序 ， 但 是 没有 花 很 多 排序 时 间 。 


8.1.3 AT] 
设置 变量 时 请 小 心 , 并 不 是 值 越 大 就 越 好 , 而 且 如 果 设置 的 值 太 高 , 可 能 更 容易 导致 问题 ， 
可 能 会 由 于 内 存 不 足 导致 服务 器 内 存 交换 ， 或 者 超过 地 址 空间 。 


应 该 始终 通过 监控 来 确认 生产 环境 中 变量 的 修改 ， 是 提高 还 是 降低 了 服务 器 的 整体 性 能 。 
基准 测试 是 不 够 的 ， 因 为 基准 测试 不 是 真实 的 工作 负载 。 如 果 不 对 服务 器 的 性 能 进行 实 
际 的 测量 ， 可 能 性 能 降低 了 都 设 有 发 现 。 我 们 见 过 很 多 情况 ， 有 人 修改 了 服务 器 的 配置 ， 
并 认为 它 提高 了 性 能 ， 其 实 服务 器 的 整体 性 能 恶化 了 ， 因 为 在 一 个 星期 或 一 天 的 不 同时 
间 ， 工 作 负载 是 不 一 样 的 。 


如 果 你 经 常 做 笔记 ， 在 配置 文件 中 写 好 注释 ， 可 能 会 节省 自己 《和 同事 ) 大 量 的 工作 。 


一 个 更 好 的 主意 是 把 配置 文件 置 于 版 本 控制 之 下 。 无 论 如 何 ， 这 是 一 个 很 好 的 做 法 ， 因 


为 它 让 你 有 机 会 撤销 变更 。 要 降低 管理 很 多 配置 文件 的 复杂 性 ， 简 单 地 创建 一 个 从 配置 
文件 到 中 央 版 本 控制 库 的 符号 链接 。 


在 开始 改变 配置 之 前 ， 应 该 优化 查询 和 schema， 至 少 先 做 明显 要 做 的 事情 ， 例 如 添加 索 
引 。 如 果 先 深入 调整 配置 , 然后 修改 了 查询 语句 和 schema, 也 许 需 要 回头 再 次 评估 配置 。 
请 记 住 ， 除 非 硬 件 、 工 作 负 载 和 数据 是 完全 静态 的 ， 否 则 都 可 能 需要 重新 检查 配置 文件 。 
实际 上 ， 大 部 分 人 的 服务 器 其 至 在 一 天 中 都 没有 稳定 的 工作 负载 一 一 意味 着 对 上 午 来 说 
完美 ”的 配置 ， 下 午 就 不 对 了 ! 显然 ， 追 求 传说 中 的 “完美 ”配置 是 完全 不 切实 际 的 。 
因此 , 没有 必要 榨 干 服务 器 的 每 一 点 性 能 , 实际 上 , 这 种 调 优 的 时 间 投 入 产 出 是 非常 小 的 。 
我 们 建议 在 “足够 好 ”的 时 候 就 可 以 停 下 了 ， 除 非 有 理由 相信 停 下 会 导致 放弃 重大 的 性 
能 提升 的 机 会 。 


注 1: 我 们 见 过 的 一 个 常见 的 错误 是 ， 配 置 一 台新 服务 器 的 内 存 是 另 一 台 已 经 存在 的 服务 器 的 两 倍 ， 并 
且 一 一 使 用 旧 服 务 器 的 配置 作为 基线 一 一 创建 一 份 新 的 配置 ， 只 是 简单 地 在 上 服务 器 的 配置 上 来 
以 2。 这 不 起 作用 。 
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8.1.4 通过 基准 测试 迭代 优化 

你 也 许 期 望 (或 者 相信 自己 会 期 望 ) 通过 建立 一 套 基准 测试 方案 ， 然 后 不 断 迭 代 地 验证 
对 配置 项 的 修改 来 找到 最 佳 配置 方案 。 通 常 我 们 都 不 建议 大 家 这 么 做 。 这 需要 做 非常 多 
的 工作 和 研究 ， 并 且 大 部 分 情况 下 潜在 的 收益 是 非常 小 的 ， 这 可 能 导致 巨大 的 时 间 浪 费 。 
而 把 时 间 花 在 检查 备份 、 监 挖 执行 计划 的 变动 之 类 的 事情 上 ， 可 能 会 更 有 意义 。 


即使 更 改 一 个 选项 后 基准 测试 出 现 了 提升 ， 也 无 法 知道 长 期 运行 后 这 个 变更 会 有 什么 副 
作用 。 基 准 测 试 也 不 能 衡量 一 切 , 或 者 没有 运行 足够 长 的 时 间 来 检测 系统 的 长 期 稳定 性 ， 
修改 就 可 能 导致 如 周期 性 性 能 拌 动 或 者 周期 性 的 慢 查 询 等 问题 。 这 是 很 难 察觉 到 的 。 


有 的 时 候 我 们 运行 某 些 组 合 的 基准 测试 ， 来 仔细 验证 或 压 测 服务 器 的 某 些 特定 部 分 ， 使 
得 我 们 可 以 更 好 地 理解 这 些 行为 。 一 个 很 好 的 例子 是 ， 我 们 使 用 了 很 多 年 的 一 些 基准 测 
试 ， 用 来 理解 InnoDB 的 刷新 行为 ， 来 寻找 更 好 的 刷新 算法 ， 以 适应 多 种 工作 负载 和 多 
种 硬件 类 型 。 我 们 经 常 测试 各 种 各 样 的 设置 ， 来 理解 它们 的 影响 以 及 怎么 优化 它们 。 但 
这 不 是 一 件 简单 的 事 一 一 这 可 能 会 花费 很 多 天 甚至 很 多 个 星期 一 一 而 且 对 大 部 分 人 来 说 
这 没有 收益 ， 因 为 服务 器 特定 部 分 的 认识 局 限 往 往 会 掩盖 了 其 他 问题 。 例 如 ， 有 时 我 们 
发 现 ， 特 定 的 设置 项 组 合 ， 在 特定 的 边缘 场景 可 能 有 更 好 的 性 能 ， 但 是 在 实际 生产 环境 
这 些 配置 项 并 不 真 的 合适 ， 例 如 ， 浪 费 大 量 的 内 存 ， 或 者 优化 了 吞吐 量 却 忽 略 了 崩溃 恢 
复 的 影响 。 


如 果 必 须 这 样 做 ， 我 们 建议 在 开始 配置 服务 器 之 前 ， 开 发 一 个 定制 的 基准 测试 包 。 你 必 
须 做 这 些 事情 来 包含 所 有 可 能 的 工作 负载 ， 甚 至 包含 一 些 边缘 的 场景 ， 例 如 很 庞大 很 复 
杂 的 查询 语句 。 在 实际 的 数据 上 重 放 工 作 负 载 通常 是 一 个 好 办 法 。 如 采 已 经 定位 到 了 一 
个 特定 的 问题 点 一 一 例如 一 个 查询 语句 运行 很 慢 一 一 也 可 以 符 试 专门 优化 这 个 氮 ， 但 是 
可 能 不 知道 这 会 对 其 他 查询 有 什么 负面 影响 。 


最 好 的 办 法 是 一 次 改变 一 个 或 两 个 变量 ， 每 次 一 点 点 ， 每 次 更 改 后 运行 基准 测试 ， 确 保 
运行 足够 长 的 时 间 来 确认 性 能 是 否 稳定 。 有 时 结果 可 能 会 令 你 感到 恢 讶 ， 可 能 把 一 个 变 
量 调 大 了 一 点 ， 观 察 到 性 能 提升 ， 然 后 再 调 大 一 点 ， 却 发 现 性 能 大 幅 下 降 。 如 果 变 更 后 
性 能 有 隐患 ， 可 能 是 某 些 资 源 用 得 太 多 了 ， 例 如 ， 为 缓冲 区 分 配 太 多 内 存 、 频 繁 地 申请 
和 释放 内 存 。 另 外 ， 可 能 导致 MySQL 和 操作 系统 或 硬件 之 间 的 不 匹配 。 例 如 ， 我 们 发 
现 sort buffer size 的 最 佳 值 可 能 会 被 CPU 缓存 的 工作 方式 影响 ， 还 有 read_buffer 
size 需要 服务 器 的 预 读 和 IO 子 系统 的 配置 相 匹 配 。 更 大 并 不 总 是 更 好 , DAYAR. 
一 些 变量 也 依赖 于 一 些 其 他 的 东西 ， 这 需要 通过 经 验 和 对 系统 架构 的 理解 来 学 习 。 
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什么 情况 下 进行 基准 测试 是 好 的 建议 


对 于 前 面 提 到 不 建议 大 多 数 人 执行 基准 测试 的 情况 也 有 例外 的 时 候 。 我 们 有 时 会 建 
议 人 们 跑 一 些 选 代 基准 测试 ， 尽 管 通常 跟 “ 服 务 器 调 优 ”有 不 同 的 内 容 。 这 里 有 一 
些 例 子 : 


© 如 果 有 一 笔 大 的 投资 ， 如 购买 大 量 新 的 服务 器 ， 可 以 运行 一 下 基准 测试 以 了 解 
硬件 需求 。( 这 里 的 上 下 文 指 是 容量 规划 ， 不 是 服务 器 调 优 ) ， 我 们 特别 音 欢 对 
不 同 大 小 的 InnoDB 缓冲 池 进 行 基 准 测试 ,这 有 助 于 我 们 制定 一 个 “内 存 曲 线 ， 
以 展示 真正 需要 多 少 内 存 ， 不 同 的 内 存 容 量 如 何 影响 存储 系统 的 要 求 。 

© 如 果 想 了 解 InnoDB 从 前 溃 中 恢复 需要 多 久 时 间 ， 可 以 反复 设置 一 个 备 库 ， 故 
ELCAN, RE “WA” InnoDB 在 重启 中 需要 花费 多 久 时 间 来 做 恢复 。 这 
里 的 背景 是 做 高 可 用 性 的 规划 。 

e 以 读 为 主 的 应 用 程序 ， 在 慢 查 询 日 志 中 捕捉 所 有 的 查询 (或 者 用 pt-query- 
digest 分 析 TCP RE) 是 个 很 好 的 主意 ,在 服务 器 完全 打开 慢 查 询 日 志 记 录 时 ， 
使 用 pt-log-player 重 放 所 有 的 慢 查 询 ， 然 后 用 pt-query-digest 来 分 析 输 出 报告 。 
这 可 以 观察 在 不 同 硬 件 、 软 件 和 服务 器 设置 下 ， 查 询 语 自 运行 的 情况 。 例 如 ， 
我 们 曾经 帮助 客户 评估 迁移 到 更 多 的 内 存 但 硬盘 更 慢 的 服务 器 上 的 性 能 变化 。 
大 多 数 查 询 变 得 更 快 ， 但 一 些 分 析 型 查询 语句 变 慢 ， 因为 它们 是 I/O 密集 型 的 。 
这 个 测试 的 上 下 文 背景 就 是 不 同 工 作 负载 的 比较 。 


8.2 什么 不 该 做 


在 我 们 开始 配置 服务 器 之 前 ， 和 希望 鼓励 大 家 去 避免 一 些 我 们 已 经 发 现 有 风险 或 有 害 的 做 
法 。 警 告 : 本 市 有 些 观 点 可 能 会 让 有 些 人 不 舒服 1 


首先 ， 不 要 根据 一 些 “ 比 率 ” 来 调 优 。 一 个 经 典 的 按 “ 比 率 ” 调 优 的 经 验 法 则 是， 键 组 
存 的 命中 率 应 该 高 于 某 个 百分比 ， 如 果 命 中 率 过 低 ， 则 应 该 增加 缓存 的 大 小 。 这 是 非常 
错误 的 意见 。 无 论 别人 怎么 跟 你 说 ,缓存 命中 率 跟 缓 存 是 否 过 大 或 过 小 没有 关系 。 首 先 ， 
命中 率 取决 于 工作 负载 一 一 某 些 工作 负载 就 是 无 法 缓存 的 ， 不 管 缓存 有 多 大 一 一 其 次 ， 
缓存 命中 没有 什么 意义 ， 我 们 将 在 后 面 解释 原因 。 有 了 时 当 缓 存 太 小 时 ， 命 中 率 比 较 低 ， 
增加 缓存 的 大 小 确实 可 以 提高 命中 率 。 然 而 ， 这 只 是 个 偶然 情况 ， 并 不 表示 这 与 性 能 或 
适当 的 缓存 大 小 有 任何 关系 。 
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这 种 相关 性 ， 有 时 候 看 起 来 似乎 真正 的 问题 是 ， 人 们 开始 相信 它们 将 永远 是 真 的 。 


Oracle DBA 很 多 年 前 就 放弃 了 基于 命中 率 的 调 优 ， 我 们 希望 MySQL DBA 也 能 跟着 
走 *。 我 们 更 强烈 地 希望 人 们 不 要 去 写 “ 调 优 脚本 ”， 把 这 些 危险 的 做 法 编写 到 一 起 ， 并 
教导 成 千 上 万 的 人 这 么 做 。 这 引出 了 我 们 第 二 个 不 该 做 的 建议 : 不 要 使 用 调 优 脚本 ! 有 
几 个 这 样 的 可 以 在 互联 网 上 找到 的 脚本 非常 受 欢迎 ， 最 好 是 忽略 它们 宇 ;。 


我 们 还 建议 避免 调 (tuning) 这 个 词 ， 我 们 在 前 面 几 段 中 使 用 这 个 词 是 有 点 随意 的 。 我 
们 更 喜欢 使 用 “配置 (Configuration)” 或 “优化 (Optimize)” 来 代替 (只 要 这 是 你 真 
正在 做 的 ， 见 第 3 章 )。“ 调 优 ” 这 个 词 ， 容 易 让 人 联想 到 一 个 缺乏 纪律 的 新 手 对 服务 器 
进行 微调 ， 并 观察 发 生 了 什么 。 我 们 建议 上 一 节 的 练习 最 好 留 给 那些 正在 研究 服务 器 内 
核 的 人 。“ 调 优 ” 服 务 器 可 能 浪费 大 量 的 时 间 。 


另外 说 一 句 ， 在 互联 网 搜索 如 何 配置 并 不 总 是 一 个 好 主意 。 在 博客 、 论 坛 等 地 方 “ 都 可 
能 找到 很 多 不 好 的 建议 。 虽 然 许多 专家 在 网 上 贡献 了 他 们 了 解 的 东西 ， 但 并 不 总 是 能 容 
易 地 分 辨 出 哪些 是 正确 的 建议 。 我 们 也 不 能 给 出 中 肯 的 建议 在 哪里 能 找到 真正 的 专家 ”’。 
但 我 们 可 以 说 ， 可 信和 的 、 声 誉 好 的 MySQL 服务 供应 商 一 般 比 简单 的 互联 网 搜索 更 安全 ， 
因为 有 好 的 客户 才 可 能 做 出 正确 的 事情 。 然 而 ， 即 使 是 他 们 的 意见 ， 疫 有 经 过 测试 和 理 
解 就 使 用 , 也 可 能 有 危险, 因为 它 可 能 对 某 种 解决 方案 有 了 思维 定 势 , 跟 你 的 思维 不 一 样 ， 
可 能 用 了 一 种 你 无 法 理解 的 方法 。 


最 后 ， 不 要 相信 很 流行 的 内 存 消耗 公式 一 一 是 的 ， 就 是 MySQL 崩溃 时 自身 输出 的 那个 
内 存 消耗 公式 (我们 这 里 就 不 再 重复 了 )。 这 个 公式 已 经 很 古老 了 ， 它 并 不 可 靠 ,其 至 
也 不 是 一 个 理解 MySQL 在 最 差 情 况 下 需要 使 用 多 少 内 存 的 有 用 的 办 法 。 在 互联 网 上 可 
能 还 会 看 到 这 个 公式 的 很 多 变种 。 即 使 在 原 公 式 上 增加 了 更 多 原来 没有 芳 虑 到 的 因素 ， 
还 是 有 同样 的 缺陷 。 事 实 上 不 可 能 非常 准确 地 把 握 MySQL 内 存 消 耗 的 上 限 。MySQL 不 
是 一 个 完全 严格 控制 内 存 分 配 的 数据 库 服务 器 。 这 个 结论 可 以 非常 简单 地 证 明 ， 登 录 到 
服务 器 ， 并 执行 一 些 大 量 消耗 内 存 的 查询 : 


mysql> SET @crash me 1 := REPEAT('a', @@max allowed packet); 
mysql> SET @crash me 2 := REPEAT('a', @@max allowed packet); 

# ... run a lot of these ... 

mysql> SET @crash me 1000000 := REPEAT('a', @@max_allowed_packet) ; 


注 2: 如果 你 还 是 不 相信 “ 按 比 率 调 优 ” 的 方法 是 错误 的 ， 请 阅读 Cary Millsap 的 Optimizing Oracle 
Performance (O'Reilly 出 版 )。 他 其 至 为 这 个 主题 专门 写 了 一 个 附录 ， 提 供 了 一 个 可 以 智能 地 产生 
任何 你 想 要 的 命中 举 的 工具 ， 莅 至 不 管 系统 正 运 行 得 多 么 糟糕 都 可 以 做 到 很 好 的 命中 府 ! SA, 
这 一 切 的 目的 都 是 为 了 说 明 比 率 是 多 么 无 用 。 

注 3 : 一 个 例外 : 我 们 维护 了 一 个 (好 用 的 ) 免费 的 在 线 配置 工具 ， 在 http:/tools.percona.com。 是 的 ， 

Di 我 们 确实 有 倾向 性 。 

注 4: Fl: (R) 查询 是 如 何 形成 的 ? 答 : 这 需要 去 问 那些 杀 死 了 坏 查 询 的 DBA 是 怎么 回 事 ， 查 询 本 
身 是 不 可 能 回击 的 。 

注 5: Percona 当然 认为 在 Percona 邮件 组 能 找到 真正 的 专家 ， 所 以 说 他 们 不 能 中 肯 。 一 一 译 者 注 
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在 一 个 循环 中 运行 这 些 语句 ， 每 次 都 创建 新 的 变量 ， 最 后 服务 器 内 存 必然 耗 尽 ， 然 后 系 
HE AAT! 运行 这 个 测试 不 需要 任何 特殊 权限 。 


在 本 节 我 们 试图 说 明 的 观点 是 ， 有 时 候 我 们 在 那些 认为 我 们 很 傲慢 的 人 面前 变 得 不 受 欢 
迎 ， 他 们 认为 我 们 正在 试图 诉 毁 他 人 ， 把 自己 塑造 成 唯一 的 权威 ， 或 者 觉得 我 们 是 在 试 
图 推销 我 们 的 服务 。 我 们 的 目的 不 是 利己 。 我 们 只 是 看 到 非常 多 很 糟糕 的 建议 ， 如 采 没 
有 足够 的 经 验 ， 这 看 上 去 似乎 还 是 合理 的 。 另 外 我 们 重复 这 么 多 次 说 明 这 些 精 糕 的 建议 ， 
因为 我 们 认为 揭穿 一 些 神话 是 很 重要 的 ， 并 提醒 我 们 的 读者 要 小 心 他 们 信任 的 那些 人 的 
专业 水 准 。 我 们 还 是 尽量 避免 在 这 里 继续 说 这 些 不 好 听 的 吧 。 


8.3 创建 MySQL mezt 


正如 我 们 在 本 章 开 头 提 到 的 ， 没 有 一 合 所 有 场景 的 “最 佳 配置 文件 ”， 比 方 说 ， 对 
一 台 有 16 GB 内 存 和 12 块 硬 盘 的 4 i CPU scaly 不 会 有 一 个 相应 的 “最 佳 配 置 文件 ”。 
应 该 开发 自己 的 配置 ， 因 为 即使 是 一 个 好 的 起 点 ， 也 依赖 于 有 具体 是 如 何 使 用 服务 器 的 。 


MySQL 编译 的 默认 设置 并 不 都 是 靠 谱 的 ， 虽然 其 中 大 部 分 都 比较 合适 。 它 们 被 设计 成 
不 要 使 用 大 量 的 资源 ， 因 为 MySQL 的 使 用 目标 是 非常 灵活 的 ， 它 并 没有 假设 自己 是 服 
务 器 上 唯一 的 应 用 。 上 默认 情况 下 ，MySQL 只 是 使 用 恰好 足够 的 资源 来 启动 ， 运 行 一 些 
少量 数据 的 简单 查询 。 如 果 有 超过 几 MB 的 数据 , 就 一 定 会 需要 自己 定制 MySQL 配置。 


你 可 能 会 先 从 一 个 包含 在 MySQL 发 行 版 本 中 的 示例 配置 文件 开始 ， 但 这 些 示例 配置 有 
自己 的 问题 。 例 如 ， 它 们 有 很 多 注释 掉 的 设置 ， 可 能 会 诱 使 你 认为 应 该 选择 一 个 值 ， 并 
取消 注释 (这 有 点 让 人 联想 到 Apache 配置 文件 )。 同 时 它们 有 很 多 乏味 的 注释 ， 只 是 为 
了 解释 选项 的 含义 ， 但 这 些 解释 并 不 总 是 通顺 、 完 整 其 至 正确 的 ， 有 些 选 项 其 至 并 不 适 
用 于 流行 的 操作 系统 ! 最 后 ， 这 些 示例 相对 于 现代 的 硬件 和 工作 负载 ， 总 是 过 时 的 。 


MySQL 专家 们 关于 如 何 解 决 这 些 问题 多 年 来 进行 了 许多 对 话 ， 但 这 些 问题 依然 存在 。 
下 面 是 我 们 的 建议 : 不 要 使 用 这 些 文件 作为 (创建 配置 文件 的 ) 起 点 ， 也 不 要 使 用 操作 
系统 的 安装 包 目 带 的 配置 文件 。 最 好 是 从 头 开始 。 


这 就 是 本 章 要 做 的 事情 。 实 际 上 MySQL 的 可 配置 性 太 强 也 可 以 说 是 个 弱点 ， 看 起 来 好 
像 需 要 花 很 多 时 间 在 配置 上 ， 其 实 大 多 数 配 置 的 默认 值 已 经 是 最 佳 配置 了 ， 所 以 最 好 不 
要 改动 太 多 配置 , 甚至 可 以 乐 记 茶 些 配置 的 存在 。 这 就 是 为 什么 我 们 为 本 书 创建 了 一 个 
完整 的 最 小 的 示例 配置 文件 ， 可 以 作为 目 己 的 服务 左 配 置 文件 的 一 个 好 的 起 点 。 有 一 些 
配置 项 是 必 选 的 ， 我 们 将 在 本 章 稍 后 解释 。 下 面 就 是 这 个 基础 配置 文件 : 


8.3 创建 MySQL 配 置 文件 | 335 


[mysqld] 


# GENERAL 

datadir = /var/lib/mysql 

socket = /var/lib/mysql/mysql. sock 
pid file = /var/lib/mysql/mysql.pid 
user = mysql 

port = 3306 

default_storage engine = InnoDB 

# INNODB 

innodb_buffer_pool size = <value> 

innodb_ log file size = <value> 

innodb file per table =1 

innodb_flush method = 0 DIRECT 

# MyISAM | 

key buffer size = <value> 

# LOGGING 

log error = /var/lib/mysql/mysql-error.log 
slow_query_log = /var/lib/mysq1/mysql-slow. log 
# OTHER 

tmp table size = 32M 

max_heap table size = 32M 

query_cache type = 0 

query cache size = 0 

max_connections = <value> 

thread cache = <value> 

table_cache = <value> 

open files limit = 65535 

[client] 

socket = /var/1ib/mysql/mysql.sock 
port = 3306 


和 你 见 过 的 其 他 配置 文件 相 比 ， 这 里 的 配置 选项 可 能 太 少 了 。 但 实际 上 已 经 超过 了 许 
多 人 的 需要 。 有 一 些 其 他 类 型 的 配置 选项 可 能 也 会 用 到 ， 比 如 二 进 制 日 志 , 我 们 会 在 本 
章 后 面 以 及 其 他 章 市 覆盖 这 些 内 容 。 


配置 文件 的 第 一 件 事 是 设置 数据 的 位 置 。 我 们 选择 了 /var/lib/mysql 路 径 存储 数据 ， 因 为 
在 许多 类 UNIX 系统 中 这 是 最 常见 的 位 置 。 选 择 另 外 的 位 置 也 没有 错 ， 可 以 根据 需要 决 
定 。 我 们 把 PID 文件 也 放 到 相同 的 位 置 ， 但 许多 操作 系统 希望 放 在 /var/run 目录 下 ， 这 
也 可 以 。 只 需要 简单 地 为 这 些 选 项 配置 一 下 就 可 以 了 。 顺 便 说 一 下 ， 不 要 把 Socket 文件 
和 PID 文件 放 到 MySQL 编译 默认 的 位 置 ， 在 不 同 的 MySQL 版 本 里 这 可 能 会 导致 一 些 
错误 。 最 好 明确 地 设置 这 些 文件 的 位 置 。( 这 么 说 并 不 是 建议 选择 不 同 的 位 置 ， 只 是 建 
议 确保 在 my.cnf 文件 中 明确 指定 了 这 些 文件 的 存放 地 点 ， 这 样 升级 MySQL 版 本 时 这 些 
路 径 就 不 会 改变 。) 


这 里 还 指定 了 操作 系统 必须 用 mysal 用 户 来 运行 mysqld 进程 。 需 要 确保 这 个 账户 存在 ， 
并 且 拥 有 操作 数据 目录 的 权限 。 端 口 设置 为 默认 的 3306， 但 有 时 可 能 需要 修改 一 下 。 


126: 问 : 为 排序 缓存 (Sort Buffer) Fe A (Read Buffer) 设置 大 小 的 选项 在 哪 ? 答 : 它们 已 经 很 专 
注 自己 的 事情 了 ， 除 非 觉 得 默认 值 不 够 好 ， 否 则 保留 默认 值 就 可 以 了 。 
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我 们 选择 InnoDB 作为 默认 的 存储 引擎 ， 这 个 值得 向 大 家 解释 一 下 。InnoDB 在 大 多 数 情 
况 下 是 最 好 的 选择 ， 但 并 不 总 是 如 此 。 例 如 ， 一些 第 三 方 的 软件 ， 可 能 假设 默认 存储 引 
擎 是 MyISAM， 所 以 创建 表 时 没有 指定 存储 引擎 。 这 可 能 会 导致 软件 故障 ， 例 如 ， 这 些 
应 用 可 能 会 假定 可 以 创建 全 文 索引 兰 "。 默 认 存储 引擎 也 会 在 显 式 创建 临时 表 时 用 到 ， 可 
能 会 引起 服务 器 做 一 些 意料 之 外 的 工作 。 如 果 和 希望 持久 化 的 表 使 用 InnoDB， 但 所 有 临 
时 表 使 用 MyISAM， 那 应 该 确保 在 CREATE TABLE 语句 中 明确 指定 了 存储 引擎 。 


一 般 情 况 下 ， 如 果 决 定 使 用 一 个 存储 引擎 作为 默认 引擎 ， 最 好 显 式 地 进行 配置 。 许 多 用 
户 认为 只 使 用 了 某 个 特定 的 存储 引擎 ， 但 后 来 发 现 正在 用 的 其 实 是 另 一 个 引擎 ， 就 是 因 
为 默认 配置 的 是 另外 一 个 引擎 。 


接 下 来 我 们 将 阐述 InnoDB 的 基础 配置 。InnoDB 在 大 多 数 情况 下 如 果 要 运行 得 很 好 ， 配 
置 大 小 合适 的 缓冲 池 (Buffer Pool) 和 日 志文 件 (Log File) 是 必须 的 。 默 认 值 都 太 小 了 。 
其 他 所 有 的 InnoDB 设置 都 是 可 选 的 ， 尽 管 示例 配置 中 因为 可 管理 性 和 灵活 性 的 原因 局 
用 了 innodb file per table。 设 置 InnoDB 日 志文 件 的 大 小 和 innodb flush_method 是 本 
章 后 面 要 讨论 的 主题 ， 其 中 innodb flush method 是 类 UNIX 系统 特有 的 选项 。 


有 一 个 流行 的 经 验 法 则 说 ， 应 该 把 缓冲 凶 大 小 设置 为 服务 器 内 存 的 约 75%~80%。 这 是 
另 一 个 偶然 有 效 的 “比率 ,但 并 不 总 是 正确 的 。 有 一 个 更 好 的 办 法 来 设置 缓冲 池 大 小 ， 
大 致 如 下 : 


1. 从 服务 器 内 存 总 量 开 始 。 

2. 减 去 操作 系统 的 内 存 占 用 ， 如 果 MySQL 不 是 唯一 运行 在 这 个 服务 器 上 的 程序 ， 还 
要 扣 掉 其 他 程序 可 能 占用 的 内 存 。 

3. 减 去 一 些 MySQL 目 身 需要 的 内 存 ， 例 如 为 每 个 查询 操作 分 配 的 一 些 缓冲 。 

4. 减 去 足够 让 操作 系统 缓存 InnoDB 日 志文 件 的 内 存 ， 至 少 是 足够 缓存 最 近 经 营 访 问 
的 部 分 。( 此 建议 适用 于 标准 的 MySQL，Percona Server 可 以 配置 日 志文 件 用 0_ 
DIRECT 方 式 打 开 ， 绕 过 操作 系统 缓存 )， 留 一 些 内 存 至 少 可 以 缓存 二 进 制 日 志 的 最 
后 一 部 分 也 是 个 很 好 的 选择 ， 尤 其 是 如 果 复 制 产生 了 延迟 ， 备 库 就 可 能 读 取 主 库 上 
日 的 二 进 制 日 志文 件 ， 给 主 库 的 内 存 造 成 一 些 压力 。 

5. 减 去 其 他 配置 的 MySQL 缓冲 和 缓存 需要 的 内 存 ， 例 如 MyISAM 的 键 缓存 (Key 
Cache) ， 或 者 查询 缓存 (Query Cache), 

6. 除 以 105%， 这 差不多 接近 InnoDB 管理 缓冲 池 增 加 的 自身 管理 开销 。 

7. 把 结果 四 舍 五 入 ， 向 下 取 一 个 合理 的 数值 。 向 下 舍 入 不 会 太 影响 结果 ,但 是 如 果 分 
配 太 多 可 能 就 会 是 件 很 糟糕 的 事情 。 


注 7: InnoDB Æ 5.1/5.5 中 都 不 支持 全 文 索引 ， 直 到 5.6 版 本 InnoDB 才 支 持 全 文 索 引 。 一 一 译 者 注 
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我 们 对 这 里 有 些 内 存 总 量 相关 的 问题 有 一 点 感到 厌倦 一 一 什么 是 “操作 系统 的 一 个 位 
(Bit)”? 那 是 变化 的 ， 在 本 章 和 这 本 书 的 其 余部 分 ， 我 们 将 对 此 做 一 定 深 度 的 讨论 。 你 
必须 了 解 你 的 系统 ， 并 且 估 算 它 需要 多 少 内 存 才 能 良好 地 运转 。 这 是 为 什么 一 个 适合 所 
有 场景 的 配置 文件 是 不 存在 的 。 经 验 ， 以 及 有 时 一 点 数学 知识 将 给 你 提供 指导 。 


下 面 是 一 个 例子 ,假设 有 一 个 192GB 内 存 的 服务 器 ， 只 运行 MySQL 并且 只 使 用 
InnoDB， 没 有 查询 缓存 (Query Cache)， 也 没有 非常 多 的 连接 连 到 服务 器 。 如 果 日 志文 
件 总 大 小 是 4 GB， 可 能 会 像 这 样 处 理 :“ 我 认为 所 有 内 存 的 5% 或 者 2GB ， 取 较 大 的 那 
个 ， 应 该 足够 操作 系统 和 MySQL 的 其 他 内 存 需 求 ， 为 日 志文 件 减 去 4 GB， 剩 下 的 都 给 
InnoDB 用 ”。 结 果 差 不 多 是 177 GB, 但 是 配置 得 稍微 低 一 点 可 能 是 个 好 主意 。 比 如 可 
以 先 配 置 缓 存 池 为 168GB。 在 服务 器 实际 运行 中 大 发 现 还 有 不 少 内 存 没 有 分 配 使 用 ， 在 
出 于 某 些 目的 有 机 会 重启 时 ， 可 以 再 适当 调 大 缓冲 池 的 大 小 。 


如 果 有 大 量 MyISAM 表 需 要 缓存 它们 的 索引 ， 结 果 自 然 会 有 很 大 不 同 。 在 Windows 下 
这 也 是 完全 不 同 的 ， 大 多 数 的 MySQL 版 本 在 Windows 下 使 用 大 内 存 都 有 问题 (虽然 在 
MySQL 5.5 中 有 所 改进 ) ， 或 者 是 出 于 某 种 原因 不 使 用 0_DIRECT 也 会 有 不 同 的 结果 。 


正如 你 所 看 到 的 ， 从 一 开始 就 获得 精确 的 设置 并 不 是 关键 。 从 一 个 比 默认 值 大 一 点 但 不 
是 大 得 很 离谱 的 安全 值 开始 是 比较 好 的 ， 在 服务 器 运行 一 段 时 间 后 ， 可 以 看 看 服务 器 真 
实情 况 需 要 使 用 多 少 内 存 。 这 些 东西 是 很 难 预测 ， 因 为 MySQL 的 内 存 利用 率 并 不 总 是 
可 以 预测 的 : 它 可 能 依赖 很 多 的 因素 ， 例 如 查询 的 复杂 性 和 并 发 性 。 如 果 是 简单 的 工作 
Gl, MySQL 的 内 存 需求 是 非常 小 的 一 一 大 约 256 KB 的 每 个 连接 。 但 是 , 使 用 临时 表 、 
排序 、 存 储 过 程 等 的 复杂 查询 ， 可 能 使 用 更 多 的 内 存 。 


这 就 是 我 们 选择 一 个 非常 安全 的 起 点 的 原因 。 可 以 看 到 ， 即 使 是 保守 的 InnoDB 的 缓冲 
池 设 置 ， 实 际 上 也 是 服务 器 内 存 的 87.5% 一 一 超过 75%， 这 就 是 为 什么 我 们 说 简单 地 按 
比例 是 不 正确 的 方法 的 原因 。 


我 们 建议 ， 当 配置 内 存 缓冲 区 的 时 候 ， 宁 可 谨慎 ， 而 不 是 把 它们 配置 得 过 大 。 如 采 把 缓 
冲 池 配置 得 比 它 可 以 设 的 值 少 了 20%, 很 可 能 只 会 对 性 能 产生 小 的 影响 ， 也 许 就 只 影响 
几 个 百分点 。 如 果 设 置 得 大 了 20%， 则 可 能 会 造成 更 严重 的 问题 : AAR, MAP oD, 
其 至 内 存 耗 尽 和 硬件 死机 。 


这 份 InnoDB 配置 的 例子 说 明了 我 们 配置 服务 器 的 首选 途径 : 了 解 它 内 部 做 了 什么 ， 以 
及 参数 之 间 如 何 相互 影响 ， 然 后 再 决定 。 
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时 间 改 变 一 切 
精确 地 配置 MySQL 的 内 看 缓冲 区 随 着 时 间 的 推移 变 得 不 那么 重要 。 妆 一 个 强大 的 
服务 器 只 有 4 GB 内 存 的 时 候 ， 我 们 努力 地 平衡 其 资源 使 它 可 以 运行 1 000 个 连接 。 
这 通常 需要 我 们 为 MySQL 保留 1GB 的 内 存 ， 这 是 服务 器 总 内 存 的 四 分 之 一 ， 而 


且 会 极 大 地 影响 我 们 设置 缓冲 池 的 大 小 。 


如 今 类 似 的 服务 器 有 144 GB 的 内 存 ， 但 是 在 大 多 数 应 用 中 我 们 通常 看 到 的 连接 数 
是 相同 的 ， 每 个 连接 的 缓冲 区 并 没有 真 的 改变 太 多 。 Ast, RINT EAR RIA 
MySQL 保留 4GB 的 内 存 ， 这 只 是 九 牛 一 毛 而 已 。 它 不 会 对 我 们 的 缓冲 池 的 大 小 设 
置 产 生 太 大 影响 。 


示例 配置 文件 中 的 其 他 一 些 设 置 ， 大 多 是 不 言 自 明 的 ， 其 中 很 多 配置 都 是 是 与 个 的 判断 。 
在 本 章 的 其 余部 分 ， 我 们 将 探讨 其 中 的 几 个 。 可 以 看 到 ， 我 们 已 经 启用 日 志 记 录 、 蔡 用 
了 查询 缓存 ， 等 等 。 在 这 一 章 的 后 面 ， 我 们 还 将 讨论 一 些 安全 性 和 完整 性 的 设置 ， 它 可 
以 使 服务 器 更 强健 ， 并 对 防止 数据 损坏 和 其 他 问题 非常 有 帮助 。 我 们 并 没有 在 这 里 展示 
这 些 设置 。 


这 里 需要 解释 的 一 个 选项 是 open files Limit。 在 典型 的 Linux 系统 上 我 们 把 它 设 置 得 
尽 可 能 大 。 现 代 操 作 系 统 中 打开 文件 句柄 开销 都 很 小 。 如 果 这 个 参数 不 够 大 ， 将 会 碰 到 
经 典 的 24 号 错误 , “打开 的 文件 太 多 (too many open files)”. 


跳 过 其 他 的 直接 看 到 末尾 ， 在 配置 文件 的 最 后 一 节 ， 是 为 了 如 mysql 和 mysqladmin 之 类 
的 客户 端 程序 做 的 设置 ， 可 以 简化 这 些 程序 连接 到 服务 器 的 步骤 。 应 该 为 客户 端 程序 设 
置 那些 匹配 服务 器 的 配置 项 。 


8.3.1 检查 MySQL 服务 器 状态 变量 

有 时 可 以 使 用 SHOW GLOBAL STATUS 的 输出 ， 作 为 配置 的 输入 ， 以 更 好 地 通过 工作 负载 来 
自 定 义 配 置 。 为 了 达到 最 佳 效 果 ， 既 要 看 绝对 值 ， 又 要 看 值 是 如 何 随时 间 而 改变 的 ， 最 
好 为 高 峰 和 非 高 峰 时 间 的 值 做 几 个 快照 。 可 以 使 用 以 下 命令 每 隔 60 秒 来 查看 状态 变量 
的 增 量 变化 : 


$ mysqladmin extended-status -ri60 


在 解释 配置 设置 的 时 候 ， 我 们 经 常会 提 到 随 着 时 间 的 推移 各 种 状态 变量 的 变化 。 所 以 通 
党 可 以 预料 到 需要 分 析 如 刚才 那个 命令 的 输出 的 情况 。 有 一 些 有 用 的 工具 ， 如 Percona 
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Toolkit 中 的 pt-mext 或 PT-mysql-summary， 可 以 简洁 地 显示 状态 计数 器 的 变化 ， 不 用 直 
接 看 那些 SHOW 命令 的 输出 。 


好 吧 ， 前 面 的 内 容 算 是 预 热 ， 接 下 来 我 们 将 进入 一 些 服务 器 内 核 的 东西 ， 并 将 相关 的 配 
置 建议 穿插 在 其 中 。 然 后 再 回头 来 看 示例 配置 文件 ， 就 会 有 足够 的 背景 知识 来 选择 适当 
的 配置 选项 的 值 了 。 


8.4 配置 内 存 使 用 


配置 MySQL 正确 地 使 用 内 存量 对 高 性 能 是 至 关 重 要 的 。 肯 定 要 根据 需求 来 定制 内 存 使 
用 。 可 以 认为 MySQL 的 内 存 消耗 分 为 两 类 : 可 以 控制 的 内 存 和 不 可 以 控制 的 内 存 。 无 
法 控制 MySQL 服务 器 运行 、 解 析 查 询 ， 以 及 其 内 部 管理 所 消耗 的 内 存 ， 但 是 为 特定 目 
的 而 使 用 多 少 内 存 则 有 很 多 参数 可 以 控制 圭 s。。 用 好 可 以 控制 的 内 存 并 不 难 ， 但 需要 对 配 
置 的 含义 非常 清楚 。 


像 前 面 展示 的 ， 按 下 面 的 步骤 来 配置 内 存 : 


1. 确定 可 以 使 用 的 内 存 上 限 。 

2. 确定 每 个 连接 MySQL 需要 使 用 多 少 内 存 ， 例 如 排序 缓冲 和 临时 表 。 

3. 确定 操作 系统 需要 多 少 内 存 才 够 用 。 包 括 同一 台 机 器 上 其 他 程序 使 用 的 内 存 ， 如 定 
时 任务 。 

4. 把 剩 下 的 内 存 全 部 给 MySQL 的 缓存 ， 例 如 InnoDB 的 缓冲 地 ， 这 样 做 很 有 意义 。 


我 们 将 在 后 面 的 章节 详细 说 明 这 些 步 又 ， 然 后 我 们 对 各 种 MySQL 的 缓存 需求 做 更 细 蔬 
的 分 析 。 


8.4.1 MySQL 可 以 使 用 多 少 内 存 | 

在 任何 给 定 的 操作 系统 上 ，MySQL 都 有 人 允许 使 用 的 内 存 上 限 。 基 本 出 发 点 是 机 器 上 安 
装 了 多 少 物理 内 存 。 如 果 服 务 器 就 没 装 这 么 多 内 存 ，MySQL 肯定 也 不 能 用 这 么 多 内 存 。 
还 需要 考虑 操作 系统 或 架构 的 限制 ， 如 32 位 操作 系统 对 一 个 给 定 的 进程 可 以 处 理 多 少 内 
存 是 有 限制 的 。 因 为 MySQL 是 单 进 程 多 线程 的 运行 模式 ， 它 整体 可 用 的 内 存量 也 许 会 
受 操 作 系 统 位 数 的 严格 限制 一 一 例如 ，32 位 Linux 内 核 通常 限制 任意 进程 可 以 使 用 的 内 
存量 在 2.5GB ~ 2.7GB 范围 内 。 运 行 时 地 址 空间 溢出 是 非常 危险 的 ， 可 能 导致 MySQL 
崩溃 。 现 在 这 种 情况 非常 难得 一 见 ， 但 以 前 这 种 情况 很 常见 。 

有 许多 其 他 的 操作 系统 一 一 特殊 的 参数 和 古怪 的 事情 必须 考虑 到 ， 例 如 不 只 是 每 个 进 


348: 例如 Join Buffer / Sort Buffer 等 。 一 一 译 者 注 
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程 有 限制 ， 而 且 堆 栈 大 小 和 其 他 设置 也 有 限制 。 系 统 的 glibc 库 也 可 能 限制 每 次 分 配 的 
内 存 大 小 。 例 如 ， 若 glib 库 支持 单 次 分 配 的 最 大 大 小 是 2GB， 那 么 可 能 就 无 法 设置 
innodb_buffer_pool 的 值 大 于 2 GB. 


即使 在 64 位 服务 器 上 , 依然 有 一 些 限制 。 例 如 , 许多 我 们 讨论 的 缓冲 区 , 如 键 缓存 (Key 
Buffer), E 5.0 以 及 更 早 的 MySQL 版 本 上 ， 有 4GB 的 限制 ， 即 使 在 64 位 服务 器 上 也 
是 如 此 。 在 MySQL 5.1 中 ， 部 分 限制 被 取消 了 ， 在 MySQL 手册 中 记载 了 每 个 变量 的 最 
大 值 ， 有 需要 可 以 查阅 。 


8.4.2 每 个 连接 需要 的 内 存 

MySQL 保持 一 个 连接 (线程 ) 只 需要 少量 的 内 存 。 它 还 要 求 一 个 基本 量 的 内 存 来 执行 
任何 给 定 查询 。 你 需要 为 高 峰 时 期 执行 的 大 量 查 询 预 留 好 足够 的 内 存 。 人 否则 ， 查 询 执行 
可 能 因为 缺乏 内 存 而 导致 执行 效率 不 佳 或 执行 失败 。 


知道 在 高 峰 时 期 MySQL 将 消耗 多 少 内 存 是 非常 有 用 的 ， 但 一 些 习惯 性 用 法 可 能 意外 地 
消耗 大 量 内 存 ， 这 使 得 对 内 存 使 用 量 的 预测 变 得 比较 困难 。 绑 定 变量 就 是 一 个 例子 ， 因 
为 可 以 一 次 打开 很 多 绑 定 变量 语句 。 另 一 个 例子 是 InnoDB 数据 字典 (关于 这 个 后 面 我 
们 再 细 说 ) 。 


当 预 测 内 存 峰 值 消 耗 时 ， 没 必要 假设 一 个 最 坏 情 况 。 例 如 ， 配 置 MySQL 人 允许 最 多 100 
个 连接 ， 在 理论 上 可 能 出 现 100 个 连接 同时 在 运行 很 大 的 查询 ， 但 在 现实 情况 中 ， 这 可 
能 不 会 发 生 。 例 如 ， 设 置 myisam sort buffer size 为 236MB ， 最 差 情 况 下 至 少 需要 使 
用 25 GB 内 存 ， 但 这 种 最 差 情 况 在 实际 中 几乎 是 不 可 能 发 生 的 。 使 用 了 许多 大 的 临时 表 
或 复杂 存储 过 程 的 查询 ， 通 常 是 导致 高 内 存 消 耗 最 可 能 的 原因 。 

相对 于 计算 最 坏 情 况 下 的 开销 ， 更 好 的 办 法 是 观察 服务 器 在 真实 的 工作 压力 下 使 用 了 多 
少 内 存 ， 可 以 在 进程 的 虚拟 内 存 大 小 那里 看 到 。 在 许多 类 UNIX 系统 里 ， 可 以 观察 top 


命令 中 的 VIRT 列 ， 或 者 ps 命令 中 的 VSZ 列 的 值 。 下 一 章 有 更 多 关于 如 何 监视 内 存 使 用 
情况 的 信息 。 


8.4.3 为 操作 系统 保留 内 存 

跟 查 询 一 样 ， 操 作 系 统 也 需要 保留 足够 的 内 存 给 它 工 作 。 如 果 没 有 虚拟 内 存 正 在 交换 
(Paging) 到 磁盘 ， 就 是 表明 操作 系统 内 存 足 够 的 最 佳 迹 象 。( 关 于 这 个 话题 ， 请 参阅 下 
一 章 。) 
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至 少 应 该 为 操作 系统 保留 1GB ~ 2GB 的 内 存 一 一 如 果 机 器 内 存 更 多 就 再 多 预 留 一 些 。 
我 们 建议 2 GB 或 总 内 存 的 5% 作为 基准 ,以 较 大 者 为 准 。 为 了 安全 再 额外 增加 一 些 预 留 ， 
并 且 如 采 机 器 上 还 在 运行 内 存 密集 型 任务 〈《 如 备份 )， 则 可 以 再 多 增加 一 些 预 留 。 不 要 
为 操作 系统 的 缓存 增加 任何 内 存 ， 因 为 它们 可 能 会 变 得 非常 大 。 操 作 系统 通常 会 利用 所 
有 剩 下 的 内 存 来 做 文件 系统 缓存 ， 我 们 认为 ， 这 应 该 从 操作 系统 自身 的 需求 里 分 离 出 来 。 


8.4.4 为 缓存 分 配 内 存 
如 果 服 务 器 只 运行 MySQL， 所 有 不 需要 为 操作 系统 以 及 查询 处 理 保 留 的 内 存 都 可 以 用 
作 MySQL 缓存 。 


相 比 其 他 ，MySQL 需要 为 缓存 分 配 更 多 的 内 存 。 它 使 用 缓存 来 避免 磁盘 访问 ， 磁 盘 访 
问 比 内 存 访 问 数据 要 慢 得 多 。 操 作 系 统 可 能 会 缓存 一 些 数据 , 这 对 MySQL 有 些 好 处 (È 
其 是 对 MyISAM), 但 是 MySQL 自身 也 需要 大 量 内 存 。 


下 面 是 我 们 认为 对 大 部 分 情况 来 说 最 重要 的 缓存 : 


e InnoDB 缓冲 池 

e InnoDB 日 志文 件 和 MyISAM 数据 的 操作 系统 缓存 

。 MyISAM 键 缓存 

© 查询 缓存 

© 无 法 手工 配置 的 缓存 ， 例 如 二 进 制 日 志和 表 定 义 文件 的 操作 系统 缓存 


还 有 些 其 他 缓存 ， 但 是 它们 通常 不 会 使 用 太 多 内 存 。 我 们 在 前 面 的 章 市 中 讨论 了 查询 缓 
{F (Query Cache) 的 细节 ， 所 以 接 下 来 的 部 分 我 们 专注 于 InnoDB 和 MyISAM 良好 工 
作 和 需要 的 缓存 。 


如 果 只 使 用 单一 存储 引擎 ， 配 置 服务 器 就 简单 多 了 。 如 果 只 使 用 MyISAM 表 ， 就 可 以 完 
全 关闭 InnoDB, 而 如 果 只 使 用 InnoDB ， 就 只 需要 分 配 最 少 的 资源 给 MyISAM (MySQL 
内 部 系统 表 采 用 MyISAM) 。 但 是 如 果 正 混合 使 用 各 种 存储 引擎 ， 就 很 难 在 它们 之 间 找 
到 恰当 的 平衡 。 我 们 发 现 最 好 的 办 法 是 先 做 一 个 有 根据 的 猜测 ， 然 后 在 运行 中 观察 服务 
器 (再 进行 调整 )。 


8.4.5 InnoDB 缓冲 池 (Buffer Pool) 


如 果 大 部 分 都 是 InnoDB R, InnoDB 缓 促 池 或 许 比 其 他 任何 东西 更 需要 内 存 。InnoDB 
缓冲 池 并 不 仅仅 缓存 索引 : 它 还 会 缓存 行 的 数据 、 自 适应 哈 希 索引 、 插 入 缓冲 (Insert 
Buffer)、 锁 ， 以 及 其 他 内 部 数据 结构 。InnoDB 还 使 用 缓冲 池 来 帮助 延迟 写 入 ， 这 样 就 
能 合并 多 个 写 入 操作 ， 然 后 一 起 顺序 地 写 回 。 总 之 ，InnoDB 严重 依赖 缓冲 池 ， 你 必须 
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确认 为 它 分 配 了 足够 的 内 存 ， 通 常 就 像 这 一 章 前 面 展示 的 那样 处 理 。 可 以 使 用 通过 SHOW 
命令 得 到 的 变量 或 者 例如 innotop 这 样 的 工具 监控 InnoDB 缓冲 池 的 内 存 利用 情况 。 


如 果 数 据 量 不 大 ， 并 且 不 会 快速 增长 ， 就 没 必 要 为 缓冲 池 分 配 过 多 的 内 存 。 把 缓冲 字 配 
置 得 比 需要 缓存 的 表 和 索引 还 要 大 很 多 实际 上 没有 什么 意义 。 当 然 ， 对 一 个 迅速 增长 的 
数据 库 做 超前 的 规划 没有 错 ， 但 有 时 我 们 也 会 看 到 一 个 巨大 的 缓冲 池内 缓存 一 点 反 数 据 ， 
这 就 没有 必要 了 。 


很 大 的 缓冲 池 也 会 带 来 一 些 挑战 ， 例 如 ， 预 热 和 关闭 都 会 花费 很 长 的 时 间 。 如 果 有 很 
多 脏 页 在 缓冲 池 里 ，InnoDB 关闭 时 可 能 会 花费 较 长 的 上 时间， 因为 在 关闭 之 前 需要 把 脏 
页 写 回 数据 文件 。 也 可 以 强制 快速 关闭 ， 但 是 重启 时 就 必须 多 做 更 多 的 恢复 工作 ， 也 
就 是 说 无 法 同时 加 速 关 闭 和 重启 两 个 动作 。 如 果 事 先知 道 什么 时 候 需 要 关闭 InnoDB, 
可 以 在 运行 时 修改 innodb max dirty pages pct 变量 ,将 值 改 小 ， 等 待 刷新 线程 清理 
缓 促 池 ， 然 后 在 脏 页 数量 较 少 时 关闭 。 可 以 监控 the Innodb_buffer_pool_pages_dirty 
状态 变量 或 者 使 用 innotop 来 监控 SHOW INNODB STATUS 来 观察 脏 页 的 刷新 量 。 


更 小 的 innodb_max_dirty_pages_pct 变量 值 并 不 保证 InnoDB 将 在 缓冲 池 中 保持 更 少 
的 脏 页 。 它 只 是 控制 InnoDB 是 否 可 以 “偷懒 (Lazy)” WBE. InnoDB 默认 通过 一 个 
后 台 线 程 来 刷新 脏 页 ， 并 且 会 合并 写 入 ， 更 高 效 地 顺序 写 出 到 磁盘 。 这 个 行为 之 所 以 
被 称 为 “偷懒 (Lazy)”， 是 因为 它 使 得 InnoDB 延迟 了 缓冲 池 中 刷 写 脏 页 的 操作 ， 直 到 
一 些 其 他 数据 必须 使 用 空间 时 才 刷 写 。 当 脏 页 的 百分比 超过 了 这 个 半 值 ，InnoDB 将 快 
速 地 刷 写 脏 页 ， 尝 试 让 脏 页 的 数量 更 低 。 当 事务 日 志 没 有 足够 的 空间 剩余 时 ，InnoDB 
也 将 进入 “激烈 刷 写 (Furious Flushing)” 模 式 ,这 就 是 大 日 志 可 以 提升 性 能 的 一 个 原因 。 


当 有 一 个 很 大 的 缓冲 池 ， 重 启 后 服务 器 也 许 需 要 花 很 长 的 时 间 〈 几 个 小 时 甚至 几 天 ) 来 
预 热 缓冲 池 ， 尤 其 是 磁盘 很 慢 的 时 候 。 在 这 种 情况 下 ， 可 以 利用 Percona Server 的 功能 
来 重新 载 入 缓冲 池 的 页 ,从 而 节省 时 间 。 这 可 以 让 预 热 时 间 减 少 到 几 分 钟 。MySQL 5.6 
也 提供 了 一 个 类 似 的 功能 。 这 个 功能 对 复制 尤其 有 好 处 ， 因 为 单线 程 复制 导致 备 库 需 要 
额外 的 预 热 时 间 。 


如 果 不 能 使 用 Percona Server 的 快速 预 热 功 能 ， 也 可 以 在 重启 后 立刻 进行 全 表 扫 描 或 者 
索引 扫描 ， 把 索引 载 入 缓冲 池 。 这 是 比较 粗暴 的 方式 ， 但 是 有 时 候 比 什么 都 不 做 还 是 要 
好 。 可 以 使 用 init file 设置 来 实现 这 个 功能 。 把 SQL 放 到 一 个 文件 里 ， 然 后 当 MySQL 
启动 的 时 候 来 执行 。 文 件 名 必须 在 init_file 选 项 中 指定 ,文件 中 可 以 包含 多 条 SQL 命令 ， 
每 一 条 单独 一 行 (不 允许 使 用 注释 )。 


注 9 : 这 个 功能 是 Dump/Restore of the Buffer Pool， 详 情 查 看 : http:/wwwpercona.com/doc/percona-server/5.5/ 
management/innodb_Iru_dump_restore.html。 一 一 译 者 注 
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8.4.6 MyISAM 键 缓 存 (Key Caches) 


MyISAM 的 键 缓存 也 被 称 为 键 缓冲 ， 黑 认 只 有 一 个 键 缓存 ， 但 也 可 以 创建 多 个 。 不 像 
InnoDB 和 其 他 一 些 存储 引擎 ，MyISAM 自身 只 缓存 索引 ， 不 缓存 数据 (依赖 操作 系统 
缓存 数据 ) 。 如 果 大 部 分 是 MyISAM 表 ， 就 应 该 为 键 缓存 分 配 比较 多 的 内 存 。 


最 重要 的 配置 项 是 key_buffer_size。 任 何 没 有 分 配给 它 的 内 存 "都 可 以 被 操作 系统 组 


” 存 利 用 。MySQL 5.0 有 一 个 规定 的 有 效 上 限 是 4GB ， 不 管 系统 是 什么 架构 。MySQL 5.1 


允许 更 大 的 值 。 可 以 查看 正在 使 用 的 MySQL 版 本 的 官方 手册 来 了 解 这 个 限制 。 


在 决定 键 缓存 需要 分 配 多 少 内 存 之 前 ， 先 去 了 解 MyISAM 索引 实际 上 占用 多 少 磁盘 
空间 是 很 有 帮助 的 。 肯 定 不 需要 把 键 缓冲 设置 得 比 需要 缓存 的 索引 数据 还 大 。 查 询 
INFORMATION SCHEMA 表 的 INDEX LENGTH 字段 ， 把 它们 的 值 相 加 ， 就 可 以 得 到 索引 存储 
占用 的 空间 : | 


SELECT SUM(INDEX_LENGTH) FROM INFORMATION SCHEMA.TABLES WHERE ENGINE='MYISAM' ; 
如 果 是 类 UNIX 系统 ， 也 可 以 使 用 下 面 的 命令 : 
$ du -sch `find /path/to/mysql/data/directory/ -name "*.MYI"~ 


应 该 把 键 缓存 设置 得 多 大 ? 不 要 超过 索引 的 总 大 小 ， 或 者 不 超过 为 操作 系统 缓存 保留 总 
内 存 的 25% ~ 50%， 以 更 小 的 为 准 。 


默认 情况 下 ，MyISAM 将 所 有 索引 都 缓存 在 默认 键 缓存 中 ， 但 也 可 以 创建 多 个 命名 的 键 
缓冲 。 这 样 就 可 以 同时 缓存 超过 4GB 的 内 存 。 如 果 要 创建 名 为 key_ buffer 1 和 key 
buffer 2 的 键 缓冲 ， 每 个 大 小 为 1GB， 则 可 以 在 配置 文件 中 添加 如 下 配置 项 : 


key_buffer 1.key buffer size = 1G 
key buffer 2.key buffer size = 1G 


REA TZAR ; 两 个 由 这 两 行 配置 明确 定义 ， 还 有 一 个 是 默认 键 缓冲 。 可 以 使 用 
CACHE INDEX 命令 来 将 表 上 映射 到 对 应 的 缓 神 区 。 使 用 下 面 的 语句 ， 让 MySQL 使 用 key_ 
buffer_1 缓冲 区 来 缓存 t1 和 t2 表 的 索引 : 


mysql> CACHE INDEX t1, t2 IN key_buffer_1; 


现在 当 MySQL 从 这 些 表 的 索引 读 取 块 时 ， 将 会 在 指定 的 缓冲 区 内 缓存 这 些 块 。 也 可 以 
把 表 的 索引 预 载 入 到 缓存 中 ， 通 过 init file 设置 或 者 LOAD INDEX 命令 : 


mysql> LOAD INDEX INTO CACHE t1, t2; 


210: 当然 还 要 排除 各 种 操作 系统 自身 占用 的 内 存 ， 还 有 MySQL 自身 占用 的 内 存 等 。 一 一 译 者 注 
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任何 没 明 确 指 定 映射 到 哪个 键 缓 冲 区 的 索引 ， 在 MySQL 第 一 次 需要 访问 .M 玉 文件 的 时 
候 ， 都 会 被 分 配 到 默认 缓冲 区 。 


可 以 通过 SHOW STATUS 和 SHOW VARIABLES 命令 的 信息 来 监控 键 缓冲 的 使 用 情况 。 下 面 的 
公式 可 以 计算 缓冲 区 的 使 用 率 : 


100 - ( (Key blocks unused * key cache block size) * 100 / key_buffer_size ) 


如 果 服 务 器 运行 了 很 长 一 段 时 间 后 ， 还 是 没有 使 用 完 所 有 的 键 缓冲 ， 就 可 以 把 缓冲 区 调 
小 一 点 。 


键 缓冲 命中 率 有 什么 意义 ”正如 我 们 之 前 解释 的 那样 ， 这 个 数字 没什么 用 。 例 如 ，99% 
和 99.9% 之 间 看 起 来 差别 很 小 ， 但 实际 上 代表 了 10 倍 的 差距 。 缓 存 命 中 率 也 是 和 应 用 
相关 的 :有 些 应 用 可 以 在 95% 的 命中 率 下 工作 良好 ,但 是 也 有 些 应 用 可 能 是 WO 密集 型 的 ， 
必须 在 99.9% 的 命中 率 下 工作 。 甚 至 有 可 能 在 恰当 大 小 的 缓存 设置 下 获得 99.99% 的 命 
中 率 。 


从 经 验 上 来 说 ， 每 秒 缓存 未 命中 的 次 数 要 更 有 用 。 假 定 有 一 个 独立 的 磁盘 ， 每 秒 可 以 做 
100 个 随机 读 。 每 秒 5 次 缓存 未 命中 可 能 不 会 导致 1O 繁忙 ,但 是 每 秒 80 次 缓存 未 命中 
则 可 能 出 现 问题 。 可 以 使 用 下 面 的 公式 来 计算 这 个 值 : 


Key_reads / Uptime 


通过 间隔 10 ~ 100 秒 来 计算 这 段 时 间 内 缓存 未 命中 次 数 的 增 量 值 ， 可 以 著 得 当前 性 能 
的 情况 。 下 面 的 命令 可 以 每 10 秒 钟 获取 一 次 状态 值 的 变化 量 : 


$ mysqladmin extended-status -r -i 10 | grep Key_reads 


记 住 ，MyISAM 使 用 操作 系统 缓存 来 缓存 数据 文件 ， 通 常数 据 文 件 比 索引 要 大 。 因 此 ， 
把 更 多 的 内 存 保留 给 操作 系统 缓存 而 不 是 键 缓存 是 有 意义 的 。 即 使 你 有 足够 的 内 存 来 缓 
存 所 有 索引 , 并 且 键 缓存 命中 率 很 低 , 4 MySQL 尝试 读 取 数 据 文件 时 (不 是 索引 文件 )， 
在 操作 系统 层 还 是 可 能 发 生 缓存 未 命中 , 这 对 MySQL 完全 透明 , MySQL 并 不 能 感知 到 。 
因此 ， 这 种 情况 下 可 能 会 有 大 量 数据 文件 缓存 未 命中 ， 这 和 索引 的 键 缓存 未 命中 率 是 完 
全 不 相关 的 。 


最 后 ， 即 使 没有 任何 MyISAM 表 ， 依 然 需要 将 key buffer size 设置 为 较 小 的 值 ， 例 如 
32M. MySQL 服务 器 有 时 会 在 内 部 使 用 MyISAM 表 ， 例 如 GROUP BY 语句 可 能 会 使 用 
MyISAM 做 临时 表 。 
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[33> MySQL 键 缓存 块 大 小 (Key Block Size) 


块 大 小 也 是 很 重要 的 (尤其 是 写 密集 型 负载 )， 因 为 它 影响 了 MyISAM、 操 作 系 统 缓 
存 ， 以 及 文件 系统 之 间 的 交互 。 如 果 缓 存 块 太 小 了 ， 可 能 会 碰 到 写 时 读 取 (read-around 
write) ， 就 是 操作 系统 在 执行 写 操作 之 前 必须 先 从 磁盘 上 读 取 一 些 数据 。 下 面 说 明 一 下 
这 种 情况 是 怎么 发 生 的 ， 假 设 操作 系统 的 页 大 小 是 4KB (在 x86 架构 上 通常 都 是 这 样 )， 
并 且 索 引 块 大 小 是 1KB : 


MyISAM 请 求 从 磁盘 上 读 取 IKB 的 块 。 

操作 系统 从 磁盘 上 读 取 4KB 的 数据 并 缓存 ， 然 后 发 送 需 要 的 IKB 数据 给 MyISAM, 
操作 系统 丢弃 缓存 数据 以 给 其 他 数据 腾 出 缓存 。 

MyISAM 修改 1KB 的 索引 块 ， 然 后 请 求 操作 系统 把 它 写 回 磁盘 。 

操作 系统 从 磁盘 读 取 同一 个 4KB 的 数据 ， 写 入 操作 系统 缓存 ， 修 改 MyISAM 改动 
的 这 1KB 数据 ， 然 后 把 整个 4KB 的 块 写 回 磁盘 。 


nA A WO 一 


在 第 5 2H, 4 MyISAM 请 求 操作 系统 去 写 4KB 页 的 部 分 内 容 时 ， 就 发 生 了 写 时 读 取 
(read-around write) 。 如 果 MyISAM 的 块 大 小 跟 操 作 系 统 的 相 匹 配 ， 在 第 5 步 的 磁盘 读 
就 可 以 避免 于 。 


很 遗憾 ，MySQL 5.0 以 及 更 早 的 版 本 没有 办 法 配置 索引 块 大 小 。 但 是 ， 在 MySQL 5.1 
以 及 更 新 版 本 中 ， 可 以 设置 MyISAM 的 索引 块 大 小 跟 操 作 系 统一 样 ， 以 避免 写 时 读 取 。 
myisam_block_size 变量 控制 着 索引 块 大 小 。 也 可 以 指定 每 个 索引 的 块 大 小 ， 在 CREATE 
TABLE 或 者 CREATE INDEX 语 句 中 使 用 KEY BLOCK SIZE 选项 即 可 ， 但 是 因为 同一 个 表 的 
所 有 索引 都 保存 在 同一 个 文件 中 ， 因 此 该 表 所 有 索引 的 块 大 小 都 需要 大 于 或 者 等 于 操作 
系统 的 块 大 小 , 才能 避免 由 于 边界 对 齐 导 致 的 写 时 读 取 。( 例 如 , 若 同 一 个 表 的 两 个 索引 ， 
一 个 块 大 小 是 1KB， 另 一 个 是 4KB。 和 那么 4KB 的 索引 块 边界 很 可 能 和 操作 系统 的 页 边 
界 是 不 对 齐 的 ， 这 样 还 是 会 发 生 写 时 读 取 。) 


8.4.7 线程 缓存 


线程 缓存 保存 那些 当前 没有 与 连接 关联 但 是 准备 为 后 面 新 的 连接 服务 的 线程 。 当 一 个 新 
的 连接 创建 时 ， 如 有 果 缓 存 中 有 线程 存在 ，MySQL 从 缓存 中 删除 一 个 线程 ， 并 且 把 它 分 


配给 这 个 新 的 连接 。 当 连接 关闭 时 ， 如 果 线 程 缓存 还 有 空间 的 话 ，MySQL 又 会 把 线程 


放 回 缓存 。 如 果 没 有 空间 的 话 ，MySQL 会 销毁 这 个 线程 。 只 要 MySQL 在 缓存 里 还 有 空 
困 的 线程 ， 它 就 可 以 迅速 地 响应 连接 请 求 ， 因 为 这 样 就 不 用 为 每 个 连接 创建 新 的 线程 。 


注 11 : 理论 上 ， 如 果 能 确认 原生 4KB 的 数据 依然 在 操作 系统 缓存 中 ， 读 操作 就 不 需要 了 。 然 而 ， 你 没 法 
控制 操作 系统 把 哪些 块 放 到 丝 存 中 。 通 过 fincore 工具 可 以 看 到 哪些 块 在 缓存 中 ， 地 址 在 : http:// 
net.doit.wisc.edu/~plonka/fincore/, 
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thread cache size 变量 指定 了 MySQL 可 以 保持 在 缓存 中 的 线程 数 。 一 般 不 需要 配置 这 
个 值 ， 除 非 服务 器 会 有 很 多 连接 请 求 。 要 检查 线程 缓存 是 否 足 够 大 ， 可 以 查看 Threads_ 
created 状态 变量 。 如 果 我 们 观察 到 很 少 有 每 秒 创 建 的 新 线程 数 少 于 10 个 的 时 候 ， 通常 
应 该 尝试 保持 线程 缓存 足够 大 ， 但 是 实际 上 经 常 也 可 能 看 到 每 秒 少 于 1 个 新 线程 的 情况 。 


一 个 好 的 办 法 是 观察 Threads connected 变量 并 且 尝 试 设置 thread cache size 足够 大 
以 便 能 处 理 业 务 压力 正常 的 波动 。 例 如 ， 若 Threads connected 通常 保持 在 100 ~ 120, 
则 可 以 设置 缓存 大 小 为 20。 如 果 它 保持 在 500 ~ 700，200 的 线程 缓存 应 该 足够 大 了 。 
可 以 这 样 认为 : 在 700 个 连接 的 时 候 ， 可 能 没有 线程 在 缓存 中 ; 在 500 个 连接 的 时 候 ， 
有 200 个 缓存 的 线程 准备 为 负载 再 次 增加 到 700 个 连接 时 使 用 。 


把 线程 缓存 设置 得 非常 大 在 大 部 分 时 候 是 没有 必要 的 ， 但 是 设置 得 很 小 也 不 能 节省 太 多 
内 存 ， 所 以 也 没什么 好 处 。 每 个 在 线程 缓存 中 的 线程 或 者 休眠 状态 的 线程 ， 通 篆 使 用 
256KB 左右 的 内 存 。 相 对 于 正在 处 理 查询 的 线程 来 说 ， 这 个 内 存 不 算 很 大 。 通 常 应 该 保 
证 线程 缓存 足够 大 ， 以 避免 Threads created 频繁 增长 。 如 果 这 个 数字 很 大 (Plan, IL 
千 个 线程 ) ， 可 能 需要 把 thread cache size 设置 得 稍微 小 一 些 ， 因 为 一 些 操作 系统 不 能 
很 好 地 处 理 庞 大 的 线程 数 ， 即 使 其 中 大 部 分 是 休眠 的 。 


8.4.8 表 缓 存 (Table Cache) 


表 缓 存 和 线程 缓存 的 概念 是 相似 的 ， 但 存储 的 对 象 代表 的 是 表 。 每 个 在 缓存 中 的 对 象 包 
含 相关 表 frm 文件 的 解析 结果 ， 加 上 一 些 其 他 数据 。 准 确 地 说 ， 在 对 象 里 的 其 他 数据 的 
内 容 依赖 于 表 的 存储 引擎 。 例 如 ， 对 MyISAM， 是 表 的 数据 和 索引 的 文件 描述 符 。 对 于 
Merge 表 则 可 能 是 多 个 文件 描述 符 ， 因 为 Merge 表 可 以 有 很 多 的 底层 表 。 


表 缓 存 可 以 重用 资源 。 举 个 实际 的 例子 ， 当 一 个 查询 请 求 访问 一 张 MyISAM 表 ， 
MySQL 也 许可 以 从 缓存 的 对 象 中 获取 到 文件 描述 符 。 尽 管 这 样 做 可 以 避免 打开 一 个 文 
件 描述 符 的 开销 ， 但 这 个 开销 其 实 并 不 大 。 打 开 和 关闭 文件 描述 符 在 本 地 存储 是 很 快 的 ， 
服务 器 可 以 轻松 地 完成 每 秒 100 万 次 的 操作 (尽管 这 跟 网 络 存储 不 同 )。 对 MyISAM 表 
来 说 ， 表 缓存 的 真正 好 处 是 ， 可 以 让 服务 器 避免 修改 MyISAM 文件 头 来 标记 表 “ 正 在 使 
are” en, 


表 缓 存 的 设计 是 服务 器 和 存储 引擎 之 间 分 离 不 彻底 的 产物 ， 属 于 历史 问题 。 表 缓存 对 
InnoDB 重要 性 就 小 多 了 , 因为 InnoDB 不 依赖 它 来 做 那么 多 的 事 (例如 持 有 文件 描述 符 ， 


注 12 : “打开 的 表 (Opened Table)” 的 概念 ， 可 能 有 点 混乱 。 当 不 同 的 查询 同时 访问 一 张 表 ， 或 者 是 一 个 
单独 的 查询 引用 同一 张 表 超 过 一 次 ， 比 如 子 查询 或 者 自 关联 ，MySQL 都 会 对 一 张 表 作 为 打开 状态 
多 次 计数 。MyISAM 表 的 索引 文件 包含 一 个 计数 器 ，MyISAM 表 打 开 时 递增 ， 关 闭 时 递减 。 这 使 
得 对 于 MyISAM 表 可 以 看 到 是 不 是 关闭 干净 了 : 如 果 首 次 打开 一 个 表 ， 计 数 器 不 为 索 ， 说 明 表 没 
有 关闭 干净 。 
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InnoDB 有 自己 的 表 缓 存 版 本 )。 尽 管 如 此 ，InnoDB 也 能 从 缓存 解析 的 .frm 文件 中 获 益 。 


在 MySQL 5.1 版 本 中 ， 表 缓存 分 离 成 两 部 分 : 一 个 是 打开 表 的 缓存 ， 一 个 是 表 定 义 缓存 
(通过 table_open_ cache 和 table definition cache 变量 来 配置 ) 。 其 结果 是 , 表 定 义 ( 解 
析 .frm 文 件 的 结果 ) 从 其 他 资源 中 分 离 出 来 了 ,例如 表 描 述 符 。 打开 的 表 依然 是 每 个 线程 、 
每 个 表 用 的 ， 但 是 表 定 义 是 全 局 的 ， 可 以 被 所 有 连接 有 效 地 共享 。 通 常 可 以 把 table_ 
definition_cache 设置 得 足够 高 ， 以 缓存 所 有 的 表 定 义 。 除 非 有 上 万 张 表 ， 否 则 这 可 能 
是 最 简单 的 方法 。 


如 采 Opened_tables 状态 变量 很 大 或 者 在 增长 ， 可 能 是 因为 表 缓 存 不 够 大 ， 那 么 可 以 人 
为 增加 table cache 系统 变量 (或 者 是 MySQL 5.1 中 的 table open cache)。 然 而 ， 当 
创建 和 删除 临时 表 时 ， 要 注意 这 个 计数 器 的 增长 ， 如 果 经 常 需要 创建 和 删除 临时 表 ， 那 
么 该 计数 器 就 会 不 停 地 增长 。 


把 表 缓 存 设置 得 非常 大 的 缺点 是 ， 当 服务 器 有 很 多 MyISAM 表 时 ， 可 能 会 导致 关机 时 间 
较 长 ， 因 为 关机 前 索引 块 必 须 完成 刷新 ， 表 都 必须 标记 为 不 再 打开 。 同 样 的 原因 ， 也 可 
能 使 FLUSH TABLES WITH READ LOCK 操作 花费 很 长 一 段 时 间 。 更 为 严重 的 是 ， 检 查 表 缓 


。 存 算法 不 是 很 有 效 ， 稍 后 会 更 详细 地 说 明 。 


如 果 遇 到 MySQL 无 法 打开 更 多 文件 的 错误 (可 以 使 用 perror 工具 来 检查 错误 号 代表 的 
含义 ) ， 那 么 可 能 需要 增加 MySQL 允许 打开 文件 的 数量 。 这 可 以 通过 在 my.cnf 文 件 中 设 
置 open files limit 服务 器 变量 来 实现 。 


线程 和 表 缓 存 实际 上 用 的 内 存 并 不 多 ， 相 反 却 可 以 有 效 节 约 资源 。 虽 然 创建 一 个 新 线程 
或 者 打开 一 个 新 的 表 ， 相 对 于 其 他 MySQL 操作 来 说 代价 并 不 算 高 ， 但 它们 的 开销 是 会 
累加 的 。 所 以 缓存 线程 和 表 有 时 可 以 提升 效率 。 


8.4.9 InnoDB 数据 字典 (Data Dictionary) 


InnoDB 有 上 自己 的 表 缓 存 ， 可 以 称 为 表 定 义 缓存 或 者 数据 字典 ， 在 目前 的 MySQL 版 本 
中 还 不 能 对 它 进行 配置 。 当 InnoDB 打开 一 张 表 ， 就 增加 了 一 个 对 应 的 对 象 到 数据 字典 。 
每 张 表 可 能 占用 4KB 或 者 更 多 的 内 存 (尽管 在 MySQL 5.1 中 对 空间 的 需求 小 了 很 多 )。 
当 表 关 闭 的 时 候 也 不 会 从 数据 字典 中 移 除 它们 。 


因此 ， 随 着 时 间 的 推移 ， 服 务 器 可 能 出 现 内 存 汇 露 ， 导 致 数据 字典 中 的 元 素 不 断 地 增长 。 
但 这 不 是 真 的 内 存 泄露 ， 只 是 没有 对 数据 字典 实现 任何 一 种 缓存 过 期 策略 。 通 常 只 有 当 
有 很 多 (ATRAI) 张大 表 时 才 是 个 问题 。 如 果 这 个 问题 有 影响 ， 可 以 使 用 Percona 
Server， 有 一 个 选项 可 以 控制 数据 字典 的 大 小 ， 它 会 从 数据 字典 中 移 除 设 有 使 用 的 表 。 
MySQL 5.6 尚未 发 布 的 版 本 中 也 有 个 类 似 的 功能 。 
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另 一 个 性 能 问题 是 第 一 次 打开 表 时 会 计算 统计 信息 ， 这 需要 很 多 I/O 操作 ， 所 以 代 
价 很 高 。 相 比 MyISAM, InnoDB 没有 将 统计 信息 持久 化 ， 而 是 在 每 次 打开 表 时 重新 
计算 ， 在 打开 之 后 ， 每 隔 一 段 过 期 时 间或 者 遇 到 触发 事件 (改变 表 的 内 容 或 者 查询 
INFORMATION_SCHEMA 表 ， 等 等 ) ， 也 会 重新 计算 统计 信息 。 如 果 有 很 多 表 ， 服 务 妖 可 能 
会 花费 数 个 小 时 来 启动 并 完全 预 热 ， 在 这 个 时 候 服 务 器 可 能 花费 更 多 的 时 间 在 等 待 I/O 
操作 ， 而 不 是 做 其 他 事 。 可 以 在 Percona Server (在 MySQL 5.6 中 也 可 以 ， 但 是 叫做 
innodb analyze is persistent) 中 打开 innodb use sys stats table 选项 来 持久 化 存 
储 统计 信息 到 磁盘 ， 以 解决 这 个 问题 。 


即使 在 启动 之 后 ，InnoDB 统计 操作 还 可 能 对 服务 器 和 一 些 特 定 的 查询 产生 冲击 。 可 以 
关闭 innodb_stats_on_metadata 选项 来 避免 耗 时 的 表 统计 信息 刷新 。 当 例如 IDE 这 样 
的 工具 执行 INFORMATION_SCHEMA 表 的 查询 时 ， 关 闭 这 个 选项 后 的 表现 是 很 不 一 样 的 〈 当 
然 是 快 了 不 少 )。 


如 果 设 置 了 InnoDB 的 innodb file per table 选项 (后 面 会 描述 )，InnoDB 任意 时 刻 
可 以 保持 打开 .ipa 文件 的 数量 也 是 有 其 限制 的 。 这 由 InnoDB 存储 引擎 负责 ， 而 不 是 
MySQL 服务 器 管理 ， 并 且 由 innodb open files 来 控制 。InnoDB 打开 文件 和 MyISAM 
的 方式 不 一 样 ，MyISAM 用 表 缓 存 来 持 有 打开 表 的 文件 描述 符 ， 而 InnoDB 在 打开 表 和 
打开 文件 之 间 没 有 直接 的 关系 。InnoDB 为 每 个 ibd 文件 使 用 单个 、 全 局 的 文件 描述 符 。 
如 果 可 以 ,最 好 把 innodb_open files 的 值 设 置 得 足够 大 以 使 服务 器 可 以 保持 所 有 的 ibd 
文件 同时 打开 。 


8.5 配置 MySQL 的 I/O 行为 


有 一 些 配 置 项 影响 着 MySQL 怎样 同步 数据 到 磁盘 以 及 如 何 做 恢复 操作 。 这 些 操作 对 性 
能 的 影响 非常 大 ， 因 为 都 涉及 到 昂贵 的 IO 操作。 它们 也 表现 了 性 能 和 数据 安全 之 间 的 
权衡 。 通 常 ， 保 证 数据 立刻 并 且 一 致 地 写 到 磁盘 是 很 昂贵 的 。 如 有 果 能 够 冒 一 所 磁盘 写 可 
能 没有 真正 持久 化 到 磁盘 的 风险 ， 就 可 以 增加 并 发 性 和 减少 IO 等 待 ， 但 是 必须 决定 可 
以 容忍 多 大 的 风险 。 


8.5.1 InnoDB I/O 配置 


InnoDB 不 仅 允 许 控制 怎么 恢复 ， 还 允许 控制 怎么 打开 和 有 刷新 数据 (文件 ) ， 这 会 对 恢复 
和 整体 性 能 产生 巨大 的 影响 。 尽 管 可 以 影响 它 的 行为 ，InnoDB 的 恢复 流程 实际 上 是 自 
动 的 ， 并 且 经 常 在 InnoDB 启动 时 运行 。 撒 开 恢复 并 假设 InnoDB 没有 崩溃 或 者 出 错 ， 
InnoDB 依然 有 很 多 需要 配置 的 地 方 。 它 有 一 系列 复杂 的 缓存 和 文件 设计 可 以 提升 性 能 ， 
以 及 保证 ACID 特性 ， 并 且 每 一 部 分 都 是 可 配置 的 ， 图 8-1 阐述 了 这 些 文件 和 缓存 。 
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对 于 常见 的 应 用 ， 最 重要 的 一 小 部 分 内 容 超 InnoDB 日 志文 件 大 小 、InnoDB 怎样 刷新 它 
WA Seth, LAR InnoDB 怎样 执行 IO。 
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8-1; InnoDB 的 缓存 和 文件 





InnoDB 事务 日 志 


InnoDB 使 用 日 志 来 减少 提交 事务 时 的 开销 。 因 为 日 志 中 已 经 记录 了 事务 ， 就 无 须 在 每 
个 事务 提交 时 把 缓冲 池 的 脏 块 刷新 (flush) 到 磁盘 中 。 事 务 修改 的 数据 和 索引 通常 会 映 
射 到 表 空 间 的 随机 位 置 ， 所 以 刷新 这 些 变更 到 磁盘 需要 很 多 随机 /1O。InnoDB 假设 使 用 
的 是 常规 磁盘 (机械 磁盘 )， 随 机 I/O 比 顺序 VO 要 昂贵 得 多 ， 因 为 一 个 1/O 请 求 需要 时 
间 把 磁头 移 到 正确 的 位 置 ， 然 后 等 待 磁盘 上 读 出 需要 的 部 分 ， 再 转 到 开始 位 置 。 


InnoDB 用 日 志 把 随机 I/O 变 成 顺序 IO。 一 旦 日 志 安 全 写 到 磁盘 ， 事 务 就 持久 化 了 ， 即 
使 变更 还 没 写 到 数据 文件 。 如 果 一 些 糟 糕 的 事情 发 生 了 (例如 断 电 了 ) ，InnoDB 可 以 重 
放 日 志 并 且 恢 复 已 经 提交 的 事务 。 


当然 ，InnoDB 最 后 还 是 必须 把 变更 写 到 数据 文件 ， 因 为 日 志 有 固定 的 大 小 。InnoDB 的 
日 志 是 环形 方式 写 的 : 当 写 到 日 志 的 尾部 ， 会 重新 跳 转 到 开头 继续 写 ， 但 不 会 履 盖 还 没 
应 用 到 数据 文件 的 日 志 记 录 ， 因 为 这 样 做 会 清 掉 已 提交 事务 的 唯一 BAIER, 





350 | 第 8 章 优化 服务 器 设置 


InnoDB 使 用 一 个 后 台 线 程 智能 地 刷新 这 些 变更 到 数据 文件 .这 个 线程 可 以 批量 组 合 写 人 ， 
使 得 数据 写 人 更 顺序 ， 以 提高 效率 。 实 际 上 ， 事 务 日 志 把 数据 文件 的 随机 1/0 转换 为 几 
平顺 序 的 日 志文 件 和 数据 文件 IO。 把 刷新 操作 转移 到 后 台 使 查询 可 以 更 快 完成 ， 并 且 
缓和 查询 高 峰 时 IO 系统 的 压力 。 


整体 的 日 志文 件 大 小 受 控 于 innodb log file size 和 innodb log files in group 两 个 参 
数 ， 这 对 写 性 能 非常 重要 。 日 志文 件 的 总 大 小 是 每 个 文件 的 大 小 之 和 。 默 认 情 况 下 ， 只 
有 两 个 SMB 的 文件 ， 总 共 10MB。 对 高 性 能 工作 来 说 这 太 小 了 。 至 少 需 要 几 百 MB, 或 
者 甚至 上 GB 的 日 志文 件 。 


InnoDB 使 用 多 个 文件 作为 一 组 循环 日 志 。 通 常 不 需要 修改 默认 的 日 志 数 量 ， 只 修改 每 个 
日 志文 件 的 大 小 即 可 。 要 修改 日 志文 件 大 小 ， 需 要 完全 关闭 MySQL， 将 旧 的 日 志文 件 
移 到 其 他 地 方 保 存 ， 重 新 配置 参数 ， 然 后 重启 。 一 定 要 确保 MySQL 干净 地 关闭 了 ， 或 
者 还 有 日 志文 件 可 以 保证 需要 应 用 到 数据 文件 的 事务 记录 ， 否 则 数据 库 就 无 法 恢复 了 1! 
当 重 启 服务 器 的 时 候 ， 查 看 MySQL 的 错误 日 志 。 在 重启 成 功 之 后 ， 才 可 以 删除 旧 的 日 
志文 件 。 


日 志文 件 大 小 和 日 志 缓 存 。 要 确定 理想 的 日 志文 件 大 小 ， 必 须 权衡 正常 数据 变更 的 开销 
和 崩溃 恢复 需要 的 时 间 。 如 果 日 志 太 小 ，InnoDB 将 必须 做 更 多 的 检查 点 ， 导 致 更 多 的 
日 志 写 。 在 极 个 别 情况 下 ， 写 语句 可 能 被 拖累 ， 在 日 志 没有 空间 继续 写 和 前， 必须 等 待 
变更 被 应 用 到 数据 文件 。 另 一 方面 ， 如 果 日 志 太 大 了 ， 在 月 溃 恢 复 时 InnoDB 可 能 不 得 
不 做 大 量 的 工作 。 这 可 能 极 大 地 增加 恢复 时 间 ， 尽 管 这 个 处 理 在 新 的 MySQL 版 本 中 已 
经 改善 很 多 。 


数据 大 小 和 访问 模式 也 将 影响 恢复 时 间 。 假 设 有 一 个 1TB 的 数据 和 16GB 的 缓冲 池 ， 并 
且 全 部 日 志 大 小 是 128MB。 如 果 缓 冲 池 里 有 很 多 脏 页 (例如 ， 页 被 修改 了 还 没 被 刷 写 
回 数据 文件 ) ， 并 且 它 们 均匀 地 分 布 在 1TB 数据 中 ， 崩 省 后 恢复 将 需要 相当 长 一 段 时 间 。 
InnoDB 必须 从 头 到 尾 扫 摘 日 志 ， 仔 细 检 查 数据 文件 ， 如 果 需 要 还 要 应 用 变更 到 数据 文 
件 。 这 是 很 庞大 的 读 写 操作 ! 另 一 方面 ， 如 果 变 更 是 局 部 性 的 一 一 就 是 说 ， 如 果 只 有 几 
A MB 数据 被 频繁 地 变更 一 一 恢复 可 能 就 很 快 ， 即 使 数据 和 日 志文 件 很 大 。 恢 复 时 间 也 
依赖 于 普通 修改 操作 的 大 小 ， 这 跟 数 据 行 的 平均 长 度 有 关系 。 较 短 的 行使 得 更 多 的 修改 
可 以 放 在 同样 的 日 志 中 ， 所 以 InnoDB 可 能 必须 在 恢复 时 重 放 更 多 修改 操作 六 23。 


= InnoDB 变更 任何 数据 时 ， 会 写 一 条 变更 记录 到 内 存 日 志 缓 冲 区 。 在 缓冲 满 的 时 候 、 
事务 提交 的 时 候 ， 或 者 每 一 秒 钟 ，InnoDB 都 会 刷 写 缓冲 区 的 内 容 到 磁盘 日 志文 件 一 一 
无 论 上 述 三 个 条 件 哪 个 先 达 到 。 如 果 有 大 事务 ， 增 加 日 志 缓 冲 区 (默认 IMB) 大 小 可 以 


注 13 : 对 于 好 奇 的 人 ，Percona Server 的 innodb recovery stats 选项 可 以 帮助 你 从 执行 前 沉 恢 复 的 立场 
来 理解 服务 器 的 工作 负载 。 
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帮助 减少 IO。 变 量 innodb log buffer size 可 以 控制 日 志 缓 冲 区 的 大 小 。 


通常 不 需要 把 日 志 缓 冲 区 设置 得 非常 大 。 推 荐 的 范围 是 1MB ~ 8MB ， 一 般 来 说 足够 了 ， 
除非 要 写 很 多 相当 大 的 BLOB 记录 。 相 对 于 InnoDB 的 普通 数据 , 日 志 条 目 是 非常 紧凑 的 。 
它们 不 是 基于 页 的 ， 所 以 不 会 浪费 空间 来 一 次 存储 整个 页 。InnoDB 也 使 得 日 志 条 目 尽 
可 能 地 短 。 有 时 其 至 会 保存 为 函数 号 和 C 函数 的 参数 1 


较 大 的 日 志 缓 冲 区 在 某 些 情况 下 也 是 有 好 处 的 : 可 以 减少 缓冲 区 中 空间 分 配 的 争 用 。 当 
配置 一 台 有 大 内 存 的 服务 器 时 ， 有 了 时 简单 地 分 配 32MB ~ 128MB 的 日 志 缓冲 ， 因 为 花 
费 这 么 点 相对 ( 整 机 ) 而 言 比较 小 的 内 存 并 没有 什么 不 好 ， 还 可 以 帮助 避免 压力 瓶颈 。 
如 果 有 了 问题， 瓶颈 一 般 会 表现 为 日 志 缓 冲 Mutex HIF. 


可 以 通过 检查 SHOW INNODB STATUS 的 输出 中 LOG 部 分 来 监控 InnoDB 的 日 志和 日 志 缓 冲 
区 的 IO 性 能 ， 通 过 观察 Innodb os Log written 状态 变量 来 查看 InnoDB 对 日 志文 件 
写 出 了 多 少数 据 。 一 个 好 用 的 经 验 法 则 是 , 查看 10 ~ 100 秒 间 隔 的 数字 , 然后 记录 峰值 。 
可 以 用 这 个 来 判断 日 志 缓冲 是 否 设置 得 正好 。 例 如 ， 若 看 到 峰值 是 每 秒 写 100KB 数据 到 
日 志 ， 那 么 1MB 的 日 志 缓 冲 可 能 足够 了 。 也 可 以 使 用 这 个 衡量 标准 来 决定 日 志文 件 设 
置 多 大 会 比较 好 。 如 果 峰 值 是 100KB/s， 那 么 256MB 的 日 志文 件 足够 存储 至 少 2 560 Fb 
的 日 志 记 录 。 这 看 起 来 足够 了 。 作 为 一 个 经 验 法 则 ， 日 志文 件 的 全 部 大 小 ， 应 该 足够 容 
纳 服务 器 一 个 小 时 的 活动 内 容 。 


InnoDB 怎样 刷新 日 志 缓 冲 。 当 InnoDB 把 日 志 缓 冲刷 新 到 磁盘 日 志文 件 时 ， 先 会 使 用 一 
个 Mutex 锁 住 缓冲 区 ， 刷 新 到 所 需要 的 位 置 ， 然 后 移动 剩 下 的 条 目 到 缓冲 区 的 前 面 。 当 
Mutex 释放 时 ， 可 能 有 超过 一 个 事务 已 经 准备 好 刷新 其 日 志 记 录 。InnoDB 有 一 个 Group 
Commit 功能 ， 可 以 在 一 个 I0 操作 内 提交 多 个 事务 ,但 是 在 MySQL 5.0 中 当 打 开 二 进 
制 日 志 时 这 个 功能 就 不 能 用 了 。 我 们 在 前 一 章 写 了 一 些 关 于 Group Commit 的 东西 。 


日 志 缓 冲 必 须 被 刷新 到 持久 化 存储 ， 以 确保 提交 的 事务 完全 被 持久 化 了 。 如 果 和 持久 相 
比 更 在 平 性 能 ， 可 以 修改 innodb flush Log at_trx_commit 变量 来 控制 日 志 绥 冲刷 新 的 
频繁 程度 。 可 能 的 设置 如 下 : 


0 
把 日 志 缓 冲 写 到 日 志文 件 ， 并 且 每 秒 钟 刷新 一 次 ， 但 是 事务 提交 时 不 做 任何 事 。 


将 日 志 缓冲 写 到 日 志文 件 ,并 且 每 次 事务 提交 都 刷新 到 持久 化 存储 。 这 是 默认 的 〈 并 
且 是 最 安全 的 ) 设置 ， 该 设置 能 保证 不 会 丢失 任何 已 经 提交 的 事务 ， 除 非 磁 盘 或 者 
操作 系统 是 “人 擅 ” 刷 新 。 
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每 次 提交 时 把 日 志 缓冲 写 到 日 志文 件 ， 但 是 并 不 刷新 。InnoDB 每 秒 钟 做 一 次 刷新 。 
0 与 2 最 重要 的 不 同 是 〈 也 是 为 什么 2 是 更 合适 的 设置 ) ,如 果 MySQL AE “T”, 
2 不 会 丢失 任何 事务 。 如 果 整 个 服务 器 “ 挂 了 ”或 者 断 电 了 ， 则 还 是 可 能 会 丢失 一 
些 事务 。 


了 解 清 楚 “ 把 日 志 缓冲 写 到 日 志文 件 和 “把 日 志 刷 新 到 持久 化 存储 ”之 间 的 不 同 是 很 
重要 的 。 在 大 部 分 操作 系统 中 ， 把 缓冲 写 到 日 志 只 是 简单 地 把 数据 从 InnoDB 的 内 存 组 
冲 转 移 到 了 操作 系统 的 缓存 ， 也 是 在 内 存 里 ， 并 没有 真 的 把 数据 写 到 了 持久 化 存储 。 


因此 ,如 果 MySQL 崩溃 了 或 者 电源 断 电 了 ,设置 0 和 2 通常 会 导致 最 多 一 秒 的 数据 丢失 ， 
因为 数据 可 能 只 存在 于 操作 系统 的 缓存 。 我 们 说 “通常 ”*， 因 为 不 论 如 何 InnoDB 会 每 秒 
尝试 刷新 日 志文 件 到 磁盘 ， 但 是 在 一 些 场景 下 也 可 能 丢失 超过 1 秒 的 事务 ， 例 如 当 刷 新 
RHR T. 


与 此 相反 ， 把 日 志 刷 新 到 持久 化 存储 意味 着 InnoDB 请 求 操作 系统 把 数据 刷 出 缓存 ， 并 
且 确 认 写 到 磁盘 了 。 这 是 一 个 阻塞 1/O 的 调用 ， 直 到 数据 被 完全 写 回 才 会 完成 。 因 为 写 
数据 到 磁盘 比较 慢 ， 当 innodb flush Log at trx_commit 被 设置 为 1 时 ， 可 能 明显 地 降 
低 InnoDB 每 秒 可 以 提交 的 事务 数 。 今 天 的 高 速 驱动 器 "可 能 每 秒 只 能 执行 一 两 百 个 磁 
盘 事 务 ， 受 限于 磁盘 旋转 速度 和 寻 道 时 间 。 


有 时 硬盘 控制 器 或 者 操作 系统 假装 做 了 刷新 ， 其 实 只 是 把 数据 放 到 了 另 一 个 缓存 ， 例 如 
磁盘 自己 的 缓存 。 这 更 快 但 是 很 危险 ， 因 为 如 果 驱 动 器 断 电 ， 数 据 依 然 可 能 丢失 。 这 其 
至 比 设置 innodb flush log at trx comit 为 不 为 1 的 值 更 糟糕 ， 因 为 这 可 能 导致 数据 
损坏 ， 不 仅仅 是 丢失 事务 。 


设置 innodb flush log at trx comit 为 不 为 1 的 值 可 能 导致 丢失 事务 。 然 而 ， 如 果 
不 在 意 持久 性 (ACID 中 的 D)， 那 么 设置 为 其 他 的 值 也 是 有 用 的 。 也 许 你 只 是 想 拥有 
InnoDB 的 其 他 一 些 功 能 ， 例 如 聚 徐 索引 、 防 止 数据 损坏 ， 以 及 行 锁 。 但 仅仅 因为 性 能 
原因 用 InnoDB 替换 MyISAM 的 情况 也 并 不 少见 。 


高 性 能 事务 处 理 需 要 的 最 佳 配置 是 把 innodb flush log at trx commit 设置 为 1 且 把 日 
志文 件 放 到 一 个 有 电池 保护 的 写 缓存 的 RAID 卷 中 。 这 兼顾 了 安全 和 速度 。 事 实 上 ， 我 
们 逆 说 任何 希望 能 拉 过 高 负荷 工作 负载 的 产品 数据 库 服务 器 ， 都 需要 有 这 种 类 型 的 硬件 。 


Percona Server 扩展 了 innodb flush log at_trx_commit 变量 ， 使 得 它 成 为 一 个 会 话 级 变 
量 ， 而 不 是 一 个 全 局 变量 。 这 人 允许 有 不 同 的 性 能 和 持久 化 要 求 的 应 用 ， 可 以 使 用 同样 的 


214: 我 们 说 的 是 基于 旋转 盘 片 的 机 械 磁盘 ， 不 是 SSD 盘 ， 它们 的 性 能 特点 完全 不 一 样 。 
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数据 库 ， 同 时 又 避免 了 标准 MySQL 提供 的 一 刀 切 的 解决 方案 。 


InnoDB 怎样 打开 和 刷新 日 志 以 及 数据 文件 

使 用 innodb_flush_method 选项 可 以 配置 InnoDB 如 何 跟 文 件 系统 相互 作用 。 从 名 字 来 看 ， 
会 以 为 只 能 影响 InnoDB 怎么 写 数据 ， 实 际 上 还 影响 了 InnoDB 怎么 读数 据 。Windows 
和 非 Windows 的 操作 系统 对 这 个 选项 的 值 是 互 斥 的 : async_unbuffered、unbuffered 
和 normal 只 能 在 Windows 下 使 用 ， 并 且 Windows 下 不 能 使 用 其 他 的 值 。 在 Windows 
下 默认 值 是 unbuffered， 其 他 操作 系统 都 是 fdatasync。( 如 果 SHOW GLOBAL VARIABLES 
显示 这 个 变量 为 空 ， 意 味 着 它 被 设置 为 默认 值 了 。) 


改变 InnoDB 执行 1/O 操作 的 方式 可 以 显著 地 影响 性 能 ， 所 以 请 确认 你 明白 了 在 做 
~ 什么 后 再 去 做 改动 
anne 


这 是 个 有 点 难以 理解 的 选项 ， 因 为 它 既 影响 日 志文 件 ， 也 影响 数据 文件 ， 而 且 有 时 候 对 
不 同类 型 的 文件 的 处 理 也 不 一 样 。 如 果 有 一 个 选项 来 配置 日 志 ， 另 一 个 选项 来 配置 数据 
文件 ， 这 样 最 好 了 ， 但 实际 上 它们 混合 在 同一 个 配置 项 中 。 


下 面 是 一 些 可 能 的 值 : 


fdatasync 
这 在 非 Windows 系统 上 是 默认 值 ; InnoDB 用 fsync() 来 刷新 数据 和 日 志文 件 。 
InnoDB 通常 用 fsync() 代替 fdatasync()， 即 使 这 个 值 似乎 表达 的 是 相反 的 意思 。 


fdatasync() 跟 fsync() 相似 , 但 是 只 刷新 文件 的 数据 ， 而 不 包括 元 数据 (最 后 修 
改 时 间 , 等 等 )。 因 此 , fsync() 会 导致 更 多 的 W/O。 然而 InnoDB 的 开发 者 都 很 保守 ， 
他 们 发 现 某 些 场景 下 fdatasync() 会 导致 数据 损坏 。InnoDB 决定 了 哪些 方法 可 以 更 
安全 地 使 用 ， 有 一 些 是 编译 时 设置 的 ， 也 有 一 些 是 运行 时 设置 的 。 它 使 用 尽 可 能 最 
快 的 安全 方法 。 

使 用 fsync() 的 缺点 是 操作 系统 至 少 会 在 自己 的 缓存 中 缓冲 一 些 数 据 。 理 论 上 ， 这 
种 双重 缓冲 是 浪费 的 ， 因 为 InnoDB 管理 自己 的 缓冲 比 操 作 系 统 能 做 的 更 加 智能 。 
然而 ， 最 后 的 影响 跟 操 作 系统 和 文件 系统 非常 相关 。 如 果 能 让 文件 系统 做 更 智能 和 
VO 调度 和 批量 操作 ， 双 重 缓冲 可 能 并 不 是 坏事 。 有 的 文件 系统 和 操作 系统 可 以 积累 
写 操作 后 合并 执行 ， 通 过 对 I/O 重新 排序 来 提升 效率 ， 或 者 并 发 写 入 多 个 设备 。 它 
们 也 可 能 做 预 读 优化 ， 例 如 ， 若 连续 请 求 了 几 个 顺序 的 块 ， 它 会 通知 硬盘 预 读 下 一 
Ro 

有 时 这 些 优 化 有 帮助 ， 有 时 没有 。 如 果 你 好 奇 你 的 系统 中 的 fsync ( ) 会 做 哪些 具体 
的 事 ， 可 以 阅读 系统 的 帮助 手册 ， 看 下 fsync(2)。 
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innodb_file_ per table 选项 会 导致 每 个 文件 独立 地 做 fsync()， 这 意味 着 写 多 个 表 
不 能 合并 到 一 个 IO 操作 。 这 可 能 导致 InnoDB 执行 更 多 的 fsync() 操作 。 

O DIRECT 
InnoDB 对 数据 文件 使 用 0 DIRECT 标记 或 directio() 函数 ， 这 依赖 于 操作 系统 。 这 
个 设置 并 不 影响 日 志文 件 并 且 不 是 在 所 有 的 类 UNIX 系统 上 都 有 效 。 但 至 少 GNU/ 
Linux、FreeBSD， 以 及 Solaris (5.0 以 后 的 新 版 本 ) 是 支持 的 。 不 像 0_DSYNC 标记 ， 
它 同 时 会 影响 读 和 写 。 
这 个 设置 依然 使 用 fsync() 来 刷新 文件 到 磁盘 ， 但 是 会 通知 操作 系统 不 要 缓存 数据 ， 
也 不 要 用 预 读 。 这 个 选项 完全 关闭 了 操作 系统 缓存 ， 并 且 使 所 有 的 读 和 写 都 直接 通 

”过 存储 设备 ， 避 免 了 双重 缓冲 。 . 

在 大 部 分 系统 上 ， 这 个 实现 用 fcnttL() 调用 来 设置 文件 描述 符 的 O_DIRECT 标记 ， 所 
以 可 以 阅读 fcntL(2) 的 手册 页 来 了 解 系统 上 这 个 国 数 的 细节 。 在 Solaris 系统 ， 这 
个 选项 用 directio(). | 
如 果 RAID 卡 支持 预 读 ， 这 个 设置 不 会 关闭 RAID 卡 的 预 读 和 ”。 这 个 设置 只 能 关闭 
操作 系统 和 文件 系统 的 预 读 。 
如 果 使 用 0_DIRECT 选项 ， 通 常 需要 带 有 写 缓存 的 RAID 卡 ， 并 且 设 置 为 Write-Back <363 
策略 和 “*， 因 为 这 是 典型 的 唯一 能 保持 好 性 能 的 方法 。 当 InnoDB 和 实际 存储 设备 之 
间 没 有 缓冲 时 使 用 0_DIRECT， 例 如 当 RAID 卡 没 有 写 缓存 时 ， 可 能 导致 严重 的 性 能 
下 降 。 现 在 有 了 多 个 写 线程 ， 这 个 问题 稍微 小 一 点 (FE MySQL 5.5 提供 了 原生 蜡 
步 JO)， 但 是 通常 还 是 有 问题 。 
这 个 选项 可 能 导致 服务 器 预 热 时 间 变 长 ， 特 别 是 操作 系统 的 缓存 很 大 的 时 候 。 也 可 
能 导致 小 容量 的 缓冲 池 ( 例 如， 默认 大 小 的 缓冲 池 ) 比 缓冲 1/O (Buffered 10) FH 
式 操作 要 慢 的 多 。 这 是 因为 操作 系统 不 会 通过 保持 更 多 数据 在 自己 的 缓存 中 来 帮助 
(提升 性 能 )。 如 果 需 要 的 数据 不 在 缓冲 池 ，InnoDB 将 不 得 不 直接 从 磁盘 读 取 。 
这 个 选项 不 会 对 innodb file per table 产 生 和 任何 额外 的 损失 。 相 反 ， 如 果 不 用 
innodb file_per_table, 当 使 用 0_DIRECT 时 ,可 能 由 于 一 些 顺 序 IO 而 遭受 性 能 损失 。 
这 种 情况 的 发 生 是 因为 一 些 文件 系统 (包括 Linux 所 有 的 ext 文件 系统 ) 每 个 inode 
有 一 个 Mutex。 当 在 这 些 文件 系统 上 使 用 0_DIRECT 时 , 确实 需要 打开 innodb file_ 
per_table。 我 们 下 一 章 会 更 深入 地 探究 文件 系统 。 

ALL O DIRECT 
这 个 选项 在 Percona Server 和 MariaDB 中 可 用 。 它 使 得 服务 器 在 打开 日志 文件 时 ， 也 能 
使 用 标准 MySQL 中 打开 数据 文件 的 方式 (0_DIRECT)。 


注 15 : RAID 卡 的 预 读 控 制 必 须 在 RAID 目的 设置 中 调整 。 一 一 译 者 注 
注 16 : 就 是 写 入 会 在 RAID 让 缓存 上 进行 缓冲 ， 不 直接 写 到 硬盘 。 





译 者 注 
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0 DSYNC 
这 个 选项 使 日 志文 件 调用 open() 函数 时 设置 0_SYNC 标 记 。 它 使 得 所 有 的 写 同 步 
换个 说 法 ， 只 有 数据 写 到 磁盘 后 写 操作 才 返 回 。 这 个 选项 不 影响 数据 文件 。 
0_SYNC 标记 和 0_DIRECT 标 记 的 不 同 之 处 在 于 0_SYNC 没有 禁用 操作 系统 层 的 缓存 。 
因此 ， 它 没有 避免 双重 缓冲 ， 并 且 它 没有 使 写 操作 直接 操作 到 磁盘 。 用 了 O_SYNC 标 
记 ， 在 缓存 中 写 数据 ， 然 后 发 送 到 磁盘 。 
使 用 0_SYNC 标记 做 同步 写 操作 ， 听 起 来 可 能 跟 fsync() 做 的 事情 非常 相似 ， 但 是 它 
们 两 个 的 实现 无 论 在 操作 系统 层 还 是 在 硬件 层 都 非常 不 同 。 用 了 0_SYNC 标记 后 ， 操 
作 系 统 可 能 把 使 用 同步 IO 标记 下 传 给 硬件 层 , 告 诉 设 备 不 要 使 用 缓存 。 另 一 方面 ， 
fsync() 告诉 操作 系统 把 修改 过 的 缓冲 数据 刷 写 到 设备 上 ， 如 果 设 备 支 持 ， 紧 接着 
会 传递 一 个 指令 给 设备 刷新 它 自 己 的 缓存 ， 所 以 ， 毫 无 疑问 ， 数 据 肯定 记录 在 了 物 
理 媒 介 上 。 另 一 个 不 同 是 ， 用 了 0_SYNC 的 话 ， 每 个 write() 或 pwrite() 操作 都 会 
在 国 数 完成 之 前 把 数据 同步 到 磁盘 ， 完 成 前 国 数 调用 是 阻塞 的 。 相 对 来 看 ， 不 用 0_ 
SYNC 标记 的 写 入 调用 fsync ( ) 允许 写 操作 积累 在 缓存 (使 得 每 个 写 更 快 )， 然 后 一 
次 性 刷新 所 有 的 数据 。 
再 一 次 吐槽 下 这 个 名 称 ， 这 个 选项 设置 0 _SYNC 标 记 ， 不 是 0 _DSYNC 标 记 ， 因 
A InnoDB 开发 者 发 现 了 0_DSYNC 的 Bug。0_SYNC 和 0_DSYNC 类 似 于 fysnc() 和 
fdatasync() : 0_SYNC 同时 同步 数据 和 元 数据 ， 但 是 0_DSYNC 只 同步 数据 。 
async_unbuffered 
XÆ Windows 下 的 默认 值 。 这 个 选项 让 InnoDB 对 大 部 分 写 使 用 没有 缓冲 的 1/0 ， 
例外 是 当 innodb flush Log at trx comit 设置 为 2 的 时 候 ， 对 日 志文 件 使 用 缓冲 
I/O. 
这 个 选项 使 得 InnoDB 在 Windows 2000、XP， 以 及 更 新 版 本 中 对 数据 读 写 都 使 用 操 
作 系 统 的 原生 异步 (EW) IO。 在 更 老 的 Windows 版 本 中 ，InnoDB 使 用 自己 用 
多 线程 模拟 的 异步 VO. 
unbuffered 
只 对 Windows 有 效 。 这 个 选项 与 async_unbuffered 类 似 , 但 是 不 使 用 原生 异步 IO。 
normal 
只 对 Windows 有 效 。 这 个 选项 让 InnoDB 不 要 使 用 原生 异步 IO 或 者 无 缓冲 VO, 
Nosync 和 littlesync 
只 为 开发 使 用 。 这 两 个 选项 在 文档 中 没有 并 且 对 生产 环境 来 说 不 安全 ， 不 应 该 使 用 
这 个 。 
如 果 这 些 看 起 来 像 是 一 堆 不 带 建议 的 说 明 ， 那 么 下 面 是 一 些 建议 : 如 果 使 用 类 UNIX 操 


(FARIA RAID 控 制 器 带 有 电池 保护 的 写 缓存 ,我 们 建议 使 用 0_DIRECT。 如 果 不 是 这 样 ， 
默认 值 或 者 0_DIRECT 都 可 能 是 最 好 的 选择 ， 具 体 要 看 应 用 类 型 。 
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InnoDB 表 空 间 

InnoDB 把 数据 保存 在 表 空 间 内 ， 本 质 上 是 一 个 由 一 个 或 多 个 磁盘 文件 组 成 的 虚拟 文件 
系统 。InnoDB 用 表 空 间 实现 很 多 功能 ,并 不 只 是 存储 表 和 索引 。 它 还 保存 了 回 滚 日 志 ( 旧 
版 本 行 )、 插 入 缓冲 (Insert Buffer)、 双 写 缓冲 (Doublewrite Buffer， 后 面 的 章节 里 就 会 
描述 ) ， 以 及 其 他 内 部 数据 结构 。 


配置 表 空 间 。 通 过 innodb data file path 配置 项 可 以 定制 表 空 间 文 件 。 这 些 文件 都 放 在 
innodb_data_home dir 指定 的 目录 下 。 这 是 一 个 例子 : 

innodb data home dir = /var/lib/mysql/ 

innodb data file path = ibdata1:1G; ibdata2:1G; ibdata3:1G 


这 里 在 三 个 文件 中 创建 了 3GB 的 表 空间 。 有 时 人 们 并 不 清楚 可 以 使 用 多 个 文件 分 散 驱 动 
器 的 负载 ， 像 这 样 : 


innodb data file path = /disk1/ibdata1:1G;/disk2/ibdata2:1G;... 


在 这 个 例子 中 ， 表 空间 文件 确实 放 在 代表 不 同 驱 动 器 的 不 同 目录 中 ，InnoDB 把 这 些 文 
件 首尾 相连 组 合 起 来 。 因 此 ， 通 常 这 种 方式 并 不 能 获得 太 多 收益 。InnoDB 先 填 满 第 一 
个 文件 ， 当 第 一 个 文件 满 了 再 用 第 二 个 ， 如 此 循环 ;负载 并 没有 真 的 按照 希望 的 高 性 能 
方式 分 布 。 用 RAID 控制 器 是 分 布 负载 更 聪明 的 方式 。 


为 了 允许 表 空 间 在 超过 了 分 配 的 空间 时 还 能 增长 ， 可 以 像 这 样 配置 最 后 一 个 文件 自动 扩 
展 : 


.. ibdata3:1G:autoextend 


默认 的 行为 是 创建 单个 10MB 的 自动 扩展 文件 。 如 果 让 文件 可 以 自动 扩展 ， 那 么 最 好 给 
表 空 间 大 小 设置 一 个 上 限 , 别 让 它 扩展 得 太 大 , 因为 一 旦 扩展 了 , 就 不 能 收缩 回来 。 例 如 ， 
下 面 的 例子 限制 了 自动 扩展 文件 最 多 到 2GB : 


.. ibdata3:1G:autoextend:max:2G 


管理 一 个 单独 的 表 空 间 可 能 有 点 麻烦 ， 尤 其 是 如 果 它 是 自动 扩展 的 ， 并 且 和 希望 回收 空 eo 
时 (因为 这 个 原因 ， 我 们 建议 关闭 自动 扩展 功能 ， 至 少 设 置 一 个 合理 的 空间 范围 )。 
收 空 间 唯一 的 方式 是 导出 数据 ， 关 闭 MySQL， 删 除 所 有 文件 ， 修 改 配 置 ， 重 启 ， i 
InnoDB 创建 新 的 数据 文件 ,然后 导入 数据 。InnoDB 这 种 表 空 间 管理 方式 很 让 人 头疼 一 一 
不 能 简单 地 删除 文件 或 者 改变 大 小 。 如 果 表 空间 损坏 了 ，InnoDB 会 拒绝 启动 。 对 日 志 
文件 也 一 样 的 严格 。 如 果 像 MyISAM 一 样 随便 移动 文件 ， 千 万 要 谨慎 ! 
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innodb file per table 选项 让 InnoDB 为 每 张 表 使 用 一 个 文件 ，MySQL 4.1 和 之 后 的 
版 本 都 支持 。 它 在 数据 字典 存储 为 “ 表 名 .ibd” 的 数据 。 这 使 得 删除 一 张 表 时 回收 空间 
简单 多 了 ， 并 且 可 以 容易 地 分 散 表 到 不 同 的 磁盘 上 。 然 而 ， 把 数据 放 到 多 个 文件 ， 总 体 
来 说 可 能 导致 更 多 的 空间 浪费 ， 因 为 把 单个 InnoDB 表 空 间 的 内 部 碎片 浪费 分 布 到 了 多 
A ibd 文件 。 对 于 非常 小 的 表 ， 这 个 问题 更 大 ， 因 为 InnoDB 的 页 大 小 是 16 KB. BNE 
表 只 有 1 KB 的 数据 ， 仍 然 需要 至 少 16 KB 的 磁盘 空间 。 


即使 打开 innodb file_per_table 选项 ， 依 然 需 要 为 回 滚 日 志和 其 他 系统 数据 创建 共享 表 
空间 。 没 有 把 所 有 数据 存在 其 中 是 明智 的 做 法 ， 但 最 好 还 是 关闭 它 的 自动 增长 ， 因 为 无 
法 在 不 重新 导入 全 部 数据 的 情况 下 给 共享 表 空 间 瘦 身 。 


一 些 人 喜欢 使 用 innodb_file_per_table, 只 是 因为 特别 容易 管理 , 并 且 可 以 看 到 每 个 表 
的 文件 。 例 如 ， 可 以 通过 查看 文件 的 大 小 来 确认 表 的 大 小 ， 这 比 用 SHOW TABLE STATUS 
来 看 快 多 了 ， 这 个 命令 需要 执行 很 多 复杂 的 工作 来 判断 给 一 个 表 分 配 了 多 少 页 面 。 


设置 innodb file per_table 也 有 不 好 的 一 面 : 更 差 的 DROP TABLE 性 能 。 这 可 能 足以 导 
致 显而易见 的 服务 器 端 阻塞 。 因 为 有 如 下 两 个 原因 : 


。 .删除 表 需 要 从 文件 系统 层 去 掉 (删除 ) 文件 ， 这 可 能 在 某 些 文件 系统 (ext3 ， 说 的 
就 是 你 ) 上 会 很 慢 。 可 以 通过 欺骗 文件 系统 来 缩短 这 个 过 程 : 把 .ibd 文件 链接 到 一 
个 0 字 节 的 文件 ， 然 后 手动 删除 这 个 文件 ， 而 不 用 等 竺 MySQL 来 做 。 

。 ” 当 打 开 这 个 选项 ， 每 张 表 都 在 InnoDB 中 使 用 自己 的 表 空 间 。 结 果 是 ， 移 除 表 空间 
实际 上 需要 InnoDB 锁定 和 扫描 缓冲 池 ， 查 找 属于 这 个 表 空间 的 页 面 ， 在 一 个 有 庞 
大 的 缓冲 池 的 服务 器 上 做 这 个 操作 是 非常 慢 的 。 如 果 打 算 删 除 很 多 InnoDB 表 ( 包 
括 临 时 表 ) 并 且 用 了 innodb file per table， 可 能 会 从 Percona Server 包含 的 一 
个 修复 中 获 益 ， 它 可 以 让 服务 器 慢 慢 地 清理 掉 属 于 被 删除 表 的 页 面 。 只 需要 设置 
innodb lazy drop table 这 个 选项 。 


什么 是 最 终 的 建议 ? 我 们 建议 使 用 innodb file per table 并 且 给 共享 表 空 间 设置 大 小 
范围 ， 这 样 可 以 过 得 舒服 点 〈 不 用 处 理 那 些 空 间 回收 的 事 ) 。 如 果 遇 到 任何 头痛 的 场景 ， 
就 像 上 面 说 的 ， 考 虑 用 下 Percona 的 那个 修复 。 


提醒 一 下 ， 事 实 上 没有 必要 把 InnoDB 文件 放 在 传统 的 文件 系统 上 。 像 许多 的 传统 数据 
库 服务 器 一 样 ，InnoDB 提供 使 用 裸 设备 的 选项 一 一 例如 ， 一 个 疫 有 格式 化 的 分 区 一 一 
作为 它 的 存储 。 然 而 ,今天 的 文件 系统 已 经 可 以 存放 足够 大 的 文件 ， 所 以 已 经 没有 必要 


使 用 这 个 选项 。 使 用 裸 设备 可 能 提升 几 个 百 分 挟 的 性 能 ， 但 是 我 们 不 认为 这 乓 小 提升 足 


以 抵消 这 样 做 带 来 的 坏处 ， 我 们 不 能 直接 用 文件 管理 数据 。 当 把 数据 存在 一 个 梨 设 备 分 
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区 时 , 不 能 使 用 mv. cp 或 其 他 任何 工具 来 操作 它 。 最 终 , 这 点 小 的 性 能 收益 显然 不 值得 。 


行 的 旧版 本 和 表 空 间 在 一 个 写 压力 大 的 环境 下 ，InnoDB 的 表 空 间 可 能 增长 得 非常 大 。 
如 果 事 务 保持 打开 状态 很 入 (即使 它们 没有 做 任何 事 )， 并 且 使 用 默认 的 REPEATABLE 
READ 事务 隔离 级 别 ，InnoDB 将 不 能 删除 旧 的 行 版 本 ， 因 为 没 提交 的 事务 依然 需要 看 到 
它们 。InnoDB 把 旧版 本 存在 共享 表 空 间 ， 所 以 如 果 有 更 多 的 数据 在 更 新 ， 共 享 表 空 间 
会 持续 增长 。 有 时 这 个 问题 并 非 是 没 提交 的 事务 的 原因 ， 也 可 能 是 工作 负载 的 问题 ; 清 
理 过 程 只 有 一 个 线程 处 理 ， 直 到 最 近 的 MySQL 版 本 才 改 进 ， 这 可 能 导致 清理 线程 处 理 
速度 跟 不 上 旧版 本 行 数 增加 的 速度 。 


无 论 发 生 何 种 情况 ，SHOW INNODB STATUS 的 数据 都 可 以 帮助 定位 问题 。 查 看 历史 链表 的 
长 度 会 显示 了 回 滚 日 志 的 大 小 ， 以 页 为 单位 。 


分 析 TRANSACTIONS 部 分 的 第 一 行 和 第 二 行 可 以 证 实 这 个 观点 ， 这 部 分 展示 了 当前 事务 号 
以 及 清理 线程 完成 到 了 哪个 点 。 如 果 这 个 差距 很 大 ， 可 能 有 大 量 的 没有 清理 的 事务 。 


这 有 个 例子 : 


Trx id counter 0 80157601 
Purge done for trx’s n:o <0 80154573 undo n:o <0 0 


事务 标识 是 一 个 64 比特 的 数字 ， 由 两 个 32 比特 的 数字 (在 更 新 版 本 的 InnoDB 中 这 是 
个 十 六 进 制 的 数字 ) 组 成 ， 所 以 需要 做 一 点 数学 计算 来 计算 差距 。 在 这 个 例子 中 就 很 简 
单 了 ， 因 为 最 高 位 是 0 ;那么 有 80 157 601 - 80 154 573 = 3 028 个 “潜在 的 ”没有 被 清 
理 的 事务 (innotop 可 以 做 这 个 计算 )。 我 们 说 “潜在 的 "， 是 因为 这 跟 有 很 多 没有 清理 的 
行 是 有 很 大 区 别 的 。 只 有 改变 了 数据 的 事务 才 会 创建 旧版 本 的 行 ， 但 是 有 很 多 事务 并 没 
有 修改 数据 (相反 的 ， 一 个 事务 也 可 能 修改 很 多 行 )。 

如 果 有 个 很 大 的 回 滚 日 志 并 且 表 空间 因此 增长 很 快 ， 可 以 强制 MySQL 减速 来 使 InnoDB 


的 清理 线程 可 以 跟 得 上 。 这 听 起 来 不 怎么 样 ,但 是 没 办 法 。 否 则 ,InnoDB 将 保持 数据 写 入 ， 
填充 磁盘 直到 最 后 磁盘 空间 爆满 ， 或 者 表 空 间 大 于 定义 的 上 限 。 


为 了 控制 写 和 速度， 可 以 设置 innodb max purge lag 变量 为 一 个 大 于 0 的 值 。 这 个 值 表 

示 InnoDB 开始 延迟 后 面 的 语句 更 新 数据 之 前 ， 可 以 等 待 被 清除 的 最 大 的 事务 数量 。 你 

必须 知道 工作 负载 以 决定 一 个 合理 的 值 。 例 如 ， 事 务 平均 影响 1KB 的 行 ， 并 且 可 以 容许 
空间 里 有 100MB 的 未 清理 行 ， 那 么 可 以 设置 这 个 值 为 100 000。 


牢记 ， 设 有 清理 的 行 版 本 会 对 所 有 的 查询 产生 影响 ， 因 为 它们 事实 上 使 得 表 和 索引 更 大 
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了 。 如 采 清 理 线程 确实 跟 不 上 ， 性 能 可 能 显著 的 下 降 。 设 置 innodb_max_purge lag 变量 
也 会 降低 性 能 ， 但 是 它 的 伤害 较 少 。 


在 更 新 版 本 的 MySQL 中 ， 甚 至 在 更 早 版 本 的 Percona Server 和 MariaDB， 清 理 过 程 已 
经 显著 地 提升 了 性 能 ， 并 且 从 其 他 内 部 工作 任务 中 分 离 出 来 。 甚 至 可 以 创建 多 个 专用 的 
清理 线程 来 更 快 地 做 这 个 后 台 工 作 。 如 果 可 以 利用 这 些 特性 ， 会 比 限制 服务 器 的 服务 能 
力 要 好 得 多 。 


双 写 缓冲 (Doublewrite Buffer) 


InnoDB 用 双 写 缓冲 来 避免 页 没 写 完整 所 导致 的 数据 损坏 。 当 一 个 磁盘 写 操作 不 能 完 
地 完成 时 ， 不 完整 的 页 写 人 就 可 能 发 生 ，16KB 的 页 可 能 只 有 一 部 分 被 写 到 磁盘 上 。 有 
多 种 多 样 的 原因 〈 崩 溃 、Bug， 等 等 ) 可 能 导致 页 没有 写 完整 。 双 写 缓冲 在 这 种 情况 发 
生 时 可 以 保证 数据 完整 性 。 


双 写 缓冲 是 表 空 间 一 个 特殊 的 保留 区 域 ， 在 一 些 连 续 的 块 中 足够 保存 100 个 页 。 本 质 上 
是 一 个 最 近 写 回 的 页 面 的 备份 拷贝 。 当 InnoDB 从 缓冲 池 刷 新 页 面 到 磁盘 时 ， 首 先 把 它 
们 写 (或 者 刷新 ) 到 双 写 缓冲 ， 然 后 再 把 它们 号 到 其 所 属 的 数据 区 域 中 。 这 可 以 保证 每 
个 页 面 的 写 入 都 是 原子 并 且 持 久 化 的 。 


这 意味 着 每 个 页 都 要 写 两 遍 ? 是 的 ， 但 是 因为 InnoDB 写 页 面 到 双 写 缓冲 是 顺序 的 ， 并 
且 只 调用 一 次 fsync() 刷新 到 磁盘 ， 所 以 实际 上 对 性 能 的 冲击 是 比较 小 的 一 一 通常 只 有 
几 个 百分点 ， 肯 定 没有 一 半 那 么 多 ， 尽 管 这 个 开销 在 SSD 上 更 明显 ， 我 们 下 一 章 会 讨论 
这 个 问题 。 更 重要 的 是 ， 这 个 策略 允许 日 志文 件 更 加 高 效 。 因 为 双 写 缓冲 给 了 InnoDB 
一 个 非常 牢固 的 保证 ， 数 据 页 不 会 损坏 ，InnoDB 日 志 记录 没 必 要 包含 整个 页 ， 它 们 更 
像 是 页 面 的 二 进 制 变化 量 。 


如 果 有 一 个 不 完整 的 页 写 到 了 双 写 缓冲 ,原始 的 页 依然 会 在 磁盘 上 它 的 真实 位 置 。 当 
InnoDB 恢复 时 ， 它 将 用 原始 页 面 蔡 换 掉 双 写 缓冲 中 的 损坏 页 面 。 然 而 ， 如 果 双 写 缓冲 
成 功 写 入 ， 但 写 到 页 的 真实 位 置 失败 了 ，InnoDB 在 恢复 时 将 使 用 双 写 缓冲 中 的 拷贝 来 
替换 。InnoDB 知道 什么 时 候 页 面 损坏 了 , 因为 每 个 页 面 在 末尾 都 有 校 验 值 (Checksum). 
校 验 值 是 最 后 写 到 页 面 的 东西 ， 所 以 如 果 页 面 的 内 容 跟 校 验 值 不 匹配 ， 说 明 这 个 页 面 是 
损坏 的 。 因 此 , 在 恢复 的 时 候 , InnoDB 只 需要 读 取 双 写 缓冲 中 每 个 页 面 并 且 验 证 校 验 值 。 
如 果 一 个 页 面 的 校 验 值 不 对 ， 就 从 它 的 原始 位 置 读 取 这 个 页 面 。 | 


有 些 场景 下 ， 双 写 缓 冲 确 实 没 必 要 一 一 例如 ， 你 也 许 想 在 备 库 上 禁止 双 写 缓冲 。 此 外 一 
些 文件 系统 〈 例 如 ZFS) 做 了 同样 的 事 ， 所 以 设 必要 再 让 InnoDB 做 一 遍 。 可 以 通过 设 





注 17 : 请 注意 ,这 种 实现 思路 是 一 个 存在 很 多 争议 的 话题 ,请 看 MySQL 的 bug 60776 来 获得 更 多 细节 信息 。 
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$ innodb doublewrite 为 0 来 关闭 双 写 缓冲 。 在 Percona Server 中 ， 可 以 配置 双 写 缓冲 
存 到 独立 的 文件 中 ， 所 以 可 以 把 这 部 分 工作 压力 分 离 出 来 放 在 单独 的 盘 上 。 


其 他 的 1/0 配置 项 
sync_binlog 选项 控制 MySQL 怎么 刷新 二 进 制 日 志 到 磁盘 。 上 默认 值 是 0， 意 味 着 MySQL 
并 不 刷新 ， 由 操作 系统 自己 决定 什么 时 候 刷 新 缓存 到 持久 化 设备 。 如 果 这 个 值 比 0 大 ， 
它 指定 了 两 次 刷新 到 磁盘 的 动作 之 间 间 隔 多 少 次 二 进 制 日 志 写 操作 (如 果 autocommit 
被 设置 了 ， 每 个 独立 的 语句 都 是 一 次 写 ， 否 则 就 是 一 个 事务 一 次 写 )。 把 它 设置 为 0 和 1 
以 外 的 值 是 很 罕见 的 。 


如 森 设 有 设置 sync_binlog 为 1， 那么 崩 澳 以 后 可 能 导致 二 进 制 日 志 没 有 同步 事务 数据 。 
这 可 以 轻易 地 导致 复制 中 断 ， 并 且 使 得 及 时 恢复 变 得 不 可 能 。 无 论 如 何 ， 可 以 把 这 个 值 
设置 为 1 来 获得 安全 的 保障 。 这 样 就 会 要 求 MySQL 同步 把 二 进 制 日 志和 事务 日 志 这 两 
个 文件 刷新 到 两 个 不 同 的 位 置 。 这 可 能 需要 磁盘 寻 道 ， 相 对 来 说 是 个 很 慢 的 操作 。 


像 InnoDB 日 志文 件 一 样 ， 把 二 进 制 日 志 放 到 一 个 带 有 电池 保护 的 写 缓存 的 RAID &, 
可 以 极 大 地 提升 性 能 。 事 实 上 ， 写 和 刷新 二 进 制 日 志 缓存 其 实 比 InnoDB 事务 日 志 要 昂 
贵 多 了 ， 因 为 不 像 InnoDB 事务 日 志 ， 每 次 写 二 进 制 日 志 都 会 增加 它们 的 大 小 。 这 需要 
每 次 写 和 文件 系统 都 更 新 元 信息 。 所 以 ， 设 置 sync_binlog=1 可 能 比 innodb flush Log 
at_trx_commit=1 对 性 能 的 损害 要 大 得 多 ， 尤 其 是 网 络 文件 系统 ， 例 如 NFS. 


一 个 跟 性 能 无 关 的 提示 ， 关 于 二 进 制 日 志 : 如 果 希 望 使 用 expire_ Logs_days 选项 来 自动 
清理 旧 的 二 进 制 日 志 , 就 不 要 用 rm 命令 去 删 。 服 务 器 会 感到 困惑 并 且 拒 绝 自动 删除 它们 ， 
并 且 PURGE MASTER LOGS 也 将 停止 工作 。 解 决 的 办 法 是 ， 如 果 发 现 了 这 种 情况 ， 就 手动 
重新 同步 “主机 名 -bin.index” 文 件 ， 可 以 用 磁盘 上 现 有 日 志文 件 的 列表 来 更 新 。 


我 们 将 在 下 一 章 更 深入 地 涉及 RAID， 但 是 值得 在 这 里 重复 一 下 ， 把 带 有 电池 保护 写 缓 
存 的 高 质量 RAID 控制 器 设置 为 使 用 写 回 (Writeback) 策略 , 可 以 支持 每 秒 数 千 的 写 入 ， 
并 且 依 然 会 保证 写 到 持久 化 存储 。 数 据 写 到 了 带 有 电池 的 高 速 缓存 ， 所 以 即使 系统 断 电 


它 也 能 存在 。 但 电源 恢复 时 ，RAID 控制 器 会 在 磁盘 被 设置 为 可 用 前 ， 把 数据 从 缓存 中 


写 到 磁盘 。 因 此 ， 一 个 带 有 电池 保护 写 缓存 的 RAID 控制 器 可 以 显著 地 提升 性 能 ， 这 是 
非常 值得 的 投资 。 当 然 ，SSD 存储 是 另 一 个 选择 ， 我 们 也 会 在 下 一 章 讲 到 。 


8.5.2 MyISAM 的 I/O 配置 


让 我 们 从 分 析 MyISAM 怎么 为 索引 操作 IO 开始 。MyISAM 通常 每 次 写 操作 之 后 就 把 索 
引 变 更 刷新 磁盘 。 如 你 打算 在 一 张 表 上 做 很 多 修改 ,那么 毫 无 疑问 ,批量 操作 会 更 快 一 些 。 
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一 种 办 法 是 用 LOCK TABLES 延迟 写 和 人， 直到 解锁 这 些 表 。 这 是 个 提升 性 能 的 很 有 价值 的 
技巧 ， 因 为 它 使 得 你 精确 控制 哪些 写 被 延迟 ， 以 及 什么 时 候 把 它们 刷 到 磁盘 。 可 以 精确 
延迟 那些 希望 延迟 的 语句 。 


通过 设置 delay_key_write 变量 ， 也 可 以 延迟 索引 的 写 入 。 如 果 这 么 做 ， 修 改 的 键 缓冲 
块 直到 表 被 关闭 才 会 刷新 “" 可 能 的 配置 如 下 : 


OFF 
MyISAM 每 次 写 操 作 后 刷新 键 缓冲 (BAF, Key Buffer) 中 的 脏 块 到 磁盘 ， 除 非 
表 被 LOCK TABLES 锁定 了 。 

ON 
打开 延迟 键 写 和 信 ， 但 是 只 对 用 DELAY KEY WRITE 选项 创建 的 表 有 效 。 

ALL 
所 有 的 MyISAM 表 都 会 使 用 延迟 键 写 人。 


延迟 键 写 入 在 某 些 场景 下 可 能 很 有 帮助 ， 但 是 通常 不 会 带 来 很 大 的 性 能 提升 。 当 键 缓冲 
的 读 命中 很 好 但 写 命 中 不 好 时 ， 数 据 又 比较 小 ， 这 可 能 很 有 用 。 当 然 也 有 一 小 部 分 缺点 : 


© 如果 服务 器 缓存 并 且 块 没有 被 刷 到 磁盘 ， 索 引 可 能 会 损坏 。 

。 如 果 很 多 写 被 延迟 了 ，MySQL 可 能 需要 花费 更 长 时 间 去 关闭 表 ， 因 为 必须 等 待 缓 冲 
刷新 到 磁盘 。 在 MySQL 5.0 这 可 能 引起 很 长 的 表 缓 存 锁 。 

。 由 于 上 面 提 到 的 原因 , FLUSH TABLES 可 能 需要 很 长 时 间 。 如 果 为 了 做 逻辑 卷 (LVM) 
快照 或 者 其 他 备份 操作 ， 而 执行 FLUSH TABLES WITH READ LOCK， 那 可 能 增加 操作 
的 时 间 。 

。 键 缓 冲 中 没有 刷 回 去 的 脏 块 可 能 占用 空间 ， 导 致 从 磁盘 上 读 取 的 新 块 没有 空间 存放 。 
因此 ， 查 询 语 句 可 能 需要 等 待 MyISAM 释放 一 些 键 缓存 的 空间 。 


另外 ， 除 了 配置 MyISAM 的 索引 I/O 还 可 以 配置 MyISAM 怎样 尝试 从 损坏 中 恢复 。 
myisam_recover 选项 控制 MyISAM 怎样 寻找 和 修复 错误 。 需 要 在 配置 文件 或 者 命令 行 
中 设置 这 个 选项 。 可 以 通过 下 面 的 SQL 语句 查看 选项 的 值 ， 但 是 不 能 修改 〈 这 不 是 个 印 
刷 错 误 一 一 系统 里 变量 名 跟 命 令 的 变量 名 有 差异 ) : 


”mysq1L> SHOW VARIABLES LIKE 'myisam_recover_options' ; 


打开 这 个 选项 通知 MySQL 在 表 打 开 时 ,检查 是 否 损坏 ,并 且 在 找到 问题 的 时 候 进 行 修复 
可 以 设置 的 值 如 下 : 


注 18 ; 表 可 能 因为 多 种 原因 被 关闭 。 例 如 ， 服务器 因为 表 缓 存 没 有 空间 了 就 会 关闭 表 ， 或 者 有 人 执行 了 
FLUSH TABLES。 
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DEFAULT (或 者 不 设置 ) 
fE MySQL 尝试 修复 任何 被 标记 为 月 澳 或 者 没有 标记 为 完全 关闭 的 表 。 上 默认 值 不 要 
求 在 恢复 时 执行 其 他 动作 。 跟 大 多 数 变量 不 同 ， 这 里 DEFAULT 值 不 是 重 置 变量 的 值 
为 编译 值 ; 它 本 质 上 意味 着 “没有 设置 ”。 

BACKUP 
LE MySQL 将 数据 文件 的 备份 写 到 BAK 文件 ， 以 便 随后 进行 检查 。 

FORCE 
即使 .MYD 文件 中 丢失 的 数据 可 能 超过 一 行 ， 也 让 恢复 继续 。 

QUICK 
除非 有 删除 块 ， 否 则 跳 过 恢复 。 块 中 有 已 经 删除 的 行 也 依然 会 占用 空间 ， 但 是 可 以 
被 后 面 的 INSERT 语句 重用 。 这 可 能 比较 有 用 ， 因 为 MyISAM 大 表 的 恢复 可 能 花费 
相当 长 的 时 间 。 


可 以 使 用 多 个 设置 ， 用 逗号 分 隔 。 例如 “BACKUP, FORCE” 会 强制 恢复 并 且 创 建 备份 。 这 
是 为 什么 我 们 在 这 一 章 前 面部 分 的 示例 配置 中 这 么 用 的 原因 。 


我 们 建议 打开 这 个 选项 ， 尤 其 是 只 有 一 些小 的 MyISAM 表 时 。 服 务 器 运行 着 一 些 损坏 的 
MyISAM 表 是 很 危险 的 ， 因 为 它们 有 了 时 可 以 导致 更 多 数据 损坏 ,其 至 服务 器 崩 涡 。 然 而 ， 
如 果 有 很 大 的 表 ， 原 子 恢复 是 不 切实 际 的 : 它 导致 服务 器 打开 所 有 的 MyISAM 表 时 都 会 
检查 和 修复 ， 这 是 低 效 的 做 法 。 在 这 段 时 间 ，MySQL 会 阻止 连接 做 任何 工作 。 如 果 有 
一 大 堆 的 MyISAM 表 ， 比 较 好 的 主意 还 是 启动 后 用 CHECK TABLES 和 REPAIR TABLES fiz 
令 来 做 ，， 这 样 对 服务 器 影响 比较 少 。 不 管 哪 种 方式 ， 检 查 和 修复 表 都 是 很 重要 的 。 


打开 数据 文件 的 内 存 映射 (MMAP) 访问 是 另 一 个 有 用 的 MyISAM 选项 。 内 存 映射 使 
得 MyISAM 直接 通过 操作 系统 的 页 面 缓存 访问 .MZD 文件 ， 避 免 系 统 调 用 的 开销 。 在 
MySQL 5.1 和 更 新 的 版 本 中 ， 可 以 通过 myisam use mmap 选项 打开 内 存 映射 。 更 老 版 本 
的 MySQL 只 能 对 压缩 的 MyISAM 表 使 用 内 存 映射 。 


8.6 配置 MySQL 并 发 


当 MySQL 承受 高 并 发 压力 时 ， 可 能 会 遇 到 不 曾 遇 到 过 的 瓶颈 。 这 个 章节 阅 述 了 当 这 些 
问题 出 现 的 时 候 ， 怎 样 去 发 现 它 们 ， 以 及 在 MyISAM 和 InnoDB 遇 到 这 样 的 压力 时 怎样 
获得 尽 可 能 最 好 的 性 能 。 


注 19 : 一 些 Debian 系统 会 自动 做 这 些 事 ， 像 一 个 钟 摆 的 摆动 ， 朝 着 不 同 的 方向 不 停 地 揽 摆 。 只 是 把 这 个 
行为 配置 为 Debian 默认 做 的 事 不 是 一 个 好 主意 ， 应 该 由 DBA 来 决定 。 
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8.6.1 InnoDB 并 发 配置 


InnoDB 是 为 高 性 能 设计 的 ， 在 最 近 几 年 它 的 提升 非常 明显 ， 但 依然 不 完美 。InnoDB 架 
构 在 有 限 的 内 存 . 单 CPU . 单 磁盘 的 系统 中 仍然 暴露 出 一 些 根本 性 问题 。 在 高 并 发 场景 下 ， 
InnoDB 的 某 些 方面 的 性 能 可 能 会 降低 ， 唯 一 的 办 法 是 限制 并 发 。 可 以 参考 第 3 RPE 
用 的 技巧 来 诊断 并 发 问题 。 


如 果 在 InnoDB 并 发 方面 有 问题 ， 解 决 方案 通常 是 升级 服务 器 。 相 比 当 前 的 版 本 ， 像 
MySQL 5.0 和 早期 的 MySQL 5.1 这 样 的 旧版 本 ， 在 高 并 发 下 完全 是 个 悲剧 。 所 有 的 东西 
都 在 全 局 Mutex (Plán, rhib Mutex) 上 排队 ， 导 致 服务 器 几乎 陷 和 人 停顿 。 如 果 升 级 
到 某 个 更 新 版 本 的 MySQL ， 在 大 部 分 场景 都 不 绸 需要 限制 并 发 。 


如 果 需 要 这 么 做 ， 这 里 会 介绍 它 是 怎么 工作 的 。InnoDB 有 自己 的 “线程 调度 器 ”控制 
线程 怎么 进入 内 核 访问 数据 ， 以 及 它们 在 内 核 中 一 次 可 以 做 哪些 事 。 最 基本 的 限制 并 发 
的 方式 是 使 用 innodb thread concurrency 变量 ， 它 会 限制 一 次 性 可 以 有 多 少 线程 进入 
内 核 ，0 表示 不 限制 。 如 果 在 旧 的 MySQL 版 本 里 有 InnoDB 并 发 问题 ， 这 个 变量 是 最 重 
要 的 配置 之 一 兰 2。 


在 任何 架构 和 业务 压力 下 ， 给 这 个 变量 设置 个 “ 靠 谱 ” 的 值 都 很 重要 ， 理 论 上 ， 下 面 的 
公式 可 以 给 出 一 个 这 样 的 值 : | 


并 发 值 = CPU 数量 * 磁盘 数量 *2 
但 是 在 实践 中 ， 使 用 更 小 的 值 会 更 好 一 点 。 必 须 做 实验 来 找 出 适合 系统 的 最 好 的 值 。 


如 果 已 经 进入 内 核 的 线程 超过 了 人 允许 的 数量 ， 新 的 线程 就 无 法 再 进入 内 核 。InnoDB 使 
用 两 段 处 理 来 尝试 让 线程 尽 可 能 高 效 地 进入 内 核 。 两 段 策 略 减 少 了 因 操 作 系 统 调度 引起 
的 上 下 文 切换 。 线 程 第 一 次 休 卢 innodb thread sleep delay 微 秒 ， 然 后 再 重 试 。 如 果 
它 依然 不 能 进入 内 核 ， 则 放 入 一 个 等 待 线 程 队 列 ， 让 操作 系统 来 处 理 。 


第 一 阶段 默认 的 休眠 时 间 是 10 000 微 秒 。 当 CPU 有 大 量 的 线程 处 在 “进入 队列 前 的 休眠” 
状态 ， 因 而 没有 被 充分 利用 时 ， 改 变 这 个 值 在 高 并 发 环境 里 可 能 会 有 帮助。 如 果 有 大 量 
的 小 查询 ， 默 认 值 可 能 也 太 大 了 ， 因 为 这 增加 了 10 毫秒 的 查询 延 时 。 


一 旦 线程 进入 内 核 ， 它 会 有 一 定数 量 的 “票据 (Tickets)”， 可 以 让 它 “ 免 费 BAAN, 
不 需 再 做 并 发 检查 。 这 限制 了 一 个 线程 回 到 其 他 等 待 线 程 之 前 可 以 做 多 少 事 。innodb_ 
concurrency tickets 选项 控制 票据 的 数量 。 它 很 少 需要 修改 ， 除 非 有 很 多 运行 时 间 极 
长 的 查询 。 票 据 是 按 查 询 授 权 的 ,不 是 按 事务 。 一 旦 查询 完成 , 它 没 用 完 的 票据 就 销毁 了 。 


注 20 : 事实 上 ， 在 茶 些 工作 负载 下 ， 并 发 限制 实现 可 能 自己 就 成 为 了 系统 的 瓶颈 ， 所 以 有 时 它 需 要 打开 ， 
但 另 一 些 时 候 它 需要 关闭 。 性 能 分 析 会 告诉 你 该 怎么 做 。 
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BRT Bh FOE AM, A BP GEC FE HM STR IO 非常 密集 ， 
因为 需要 做 刷新 操作 。innodb_commit_concurrency 变量 控制 有 多 少 个 线程 可 以 在 同一 
时 间 提 交 。 如 果 innodb thread concurrency 配置 得 很 低 也 有 大 量 的 线程 冲突 ， 那 么 配 
置 这 个 选项 可 能 会 有 帮助 。 | 


最 后 ， 有 一 个 新 的 解决 方案 值得 考虑 : 使 用 线程 池 (Thread Pool) 来 限制 并 发 。 原 始 
的 线程 池 实 现 已 经 随 着 MySQL 6.0 的 代码 树 一 起 被 废弃 了 ， 并 且 有 严重 缺陷 。 但 是 
MariaDB 已 经 重新 实现 了 ， 并 且 Oracle 最 近 放 出 了 一 个 商业 插件 可 以 为 MySQL 5.5 提 
供 线程 地 功能 。 对 这 些 东西 我 们 都 没有 足够 的 经 验 来 指导 你 怎么 做 ， 你 也 许 会 更 加 困惑 ， 
因为 我 们 会 指出 这 两 种 实现 似乎 都 不 满足 Facebook， 它 在 自己 内 部 私有 的 MySQL 分 支 
中 有 一 个 叫做 “ 准 入 控制 ”的 特殊 功能 。 如 果 可 能 的 话 ， 在 这 本 书 的 第 4 版 我 们 将 分 享 
一 些 线程 凶 的 知识 ， 以 及 什么 时 候 它 们 可 以 工作 ， 什 么 时 候 不 能 工作 。 


8.6.2 MyISAM 并 发 配置 | 
在 某 些 条 件 下 ，MyISAM 也 人 允许 并 发 插入 和 读 取 ， 这 使 得 可 以 “调度 ” 某 些 操作 以 尽 可 
能 少 地 产生 阻塞 。 


在 讲述 MyISAM 的 并 发 设置 之 前 ， 理 解 MyISAM 是 怎样 删除 和 播 入 行 的 ， 是 非常 重要 
的 。 删 除 操作 不 会 重新 整理 整个 表 ， 它 们 只 是 把 行 标 记 为 删除 ， 在 表 中 留 下 “空洞 ”。 
MyISAM 倾 癌 于 在 可 能 的 时 候 填 满 这 些 空调 ， 在 播 入 行 时 重新 利用 这 些 空间 。 如 果 没 有 
空洞 了 ， 它 就 把 新 行 插入 表 的 末尾 。 


RE MyISAM 是 表 级 锁 ， 它 依然 可 以 一 边 读 取 ， 一 边 并 发 追加 新 行 。 这 种 情况 下 只 能 读 
取 到 查询 开始 时 的 所 有 数据 ， 新 插入 的 数据 是 不 可 见 的 。 这 样 可 以 避免 不 一 致 读 。 


然而 ， 若 表 中 间 的 某 些 数据 变动 了 的 话 ， 还 是 难以 提供 一 致 读 。MVCC 是 解决 这 个 问 
题 最 流行 的 方法 : 一 旦 修改 者 创建 了 新 版 本 ， 它 就 让 读 取 者 读数 据 的 旧版 本 。 可 是 ， 
MyISAM 并 不 像 InnoDB 那样 支持 MVCC， 所 以 除非 插入 操作 在 表 的 末尾 ， 否 则 不 能 
持 并 发 插入 。 


通过 设置 concurrent insert 这 个 变量 ， 可 以 配置 MyISAM 打开 并 发 插入 ， 可 以 配置 为 
如 下 值 : 


0 


MyISAM 不 允许 并 发 插入 ， 所 有 插入 都 会 对 表 加 互 斥 锁 。 
i 


这 是 默认 值 。 只 要 表 中 没有 空洞 ，MyISAM 就 允许 并 发 插入 。 
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这 个 值 在 MySQL 5.0 以 及 更 新 版 本 中 有 效 。 它 强制 并 发 插入 到 表 的 末尾 ， 即 使 表 中 
有 空洞 。 如 果 没 有 线程 从 表 中 读 取 数据 ，MySQL 将 把 新 行 放 在 空洞 里 。 使 用 这 个 设 
置 通常 会 使 表 更 加 碎片 化 。 


如 果 合 并 操作 可 以 更 加 高 效 ， 也 可 以 配置 MySQL 对 一 些 操作 进行 延迟 。 举 个 实例 ， 可 
以 通过 delay_key write 变量 延迟 写 索 引 ， 正 如 这 一 章 前 面 我 们 提 到 的 。 这 牵涉 到 熟悉 
的 权衡 : 立即 写 索 引 (安全 但 是 昂贵 )， 或 者 等 待 但 是 祈求 在 写 发 生前 别 断 电 (更 快 ， 但 
是 遇 到 月 涡 时 可 能 引起 巨大 的 索引 损坏 ， 因 为 索引 文件 已 经 过 期 了 )。 


也 可 以 让 INSERT、REPLACE、DELETE、 以 及 UPDATE 语句 的 优先 级 比 SELECT 语句 更 低 ， 
设置 low_priority_updates 选项 就 可 以 了 。 这 相当 于 把 LOW_PRIORITY 修饰 符 应 用 到 全 
局 UPDATE 语句 。 当 使 用 MyISAM 时 ， 这 是 个 非常 重要 的 选项 ， 这 让 SELECT 语句 可 以 获 
得 相当 好 的 并 发 度 ， 否 则 一 小 部 分 获取 高 优先 级 写 锁 的 语句 就 可 能 导致 SELECT 无 法 获取 
资源 。 


最 后 ， 尽 管 InnoDB 的 扩展 性 问题 更 经 常 被 提 及 ， 但 是 MyISAM 一 样 也 有 长 时 间 获 取 
Mutex 的 问题 。 在 MySQL 4.0 和 更 早 版 本 里 ,有 一 个 全 局 的 Mutex 保护 所 有 的 键 缓存 1/O， 
在 多 处 理 器 和 多 磁盘 环境 下 很 容易 引起 扩展 性 问题 。MySQL 4.1 的 键 缓存 代码 做 了 改进 ， 
就 不 再 有 这 些 问 题 了 ， 但 是 它 依然 对 每 个 键 缓冲 区 持 有 一 个 Mutex。 当 一 个 线程 从 键 缓 
冲 中 复制 键 数 据 块 到 本 地 磁盘 时 会 有 竞争 ， 从 磁盘 上 读 取 时 就 没 这 个 问题 。 磁 盘 瓶颈 没 
了 ,但 是 当 你 在 键 缓冲 里 访问 数据 时 ， 另 一 个 瓶颈 出 现 了 。 有 时 可 以 围绕 这 个 问题 把 键 
缓冲 分 成 多 个 区 ， 但 是 这 条 路 不 总 是 行 得 通 。 例 如 ， 只 涉及 一 个 独立 索引 的 时 候 ， 这 问 
题 就 没有 办 法 解决 。 于 是 ， 在 多 处 理 器 的 机 器 上 SELECT 查询 并 发 可 能 相对 单 CPU 的 机 
器 显著 下 降 ， 即 使 当时 只 有 这 些 SELECT 查询 在 执行 。 


MariaDB 提供 分 开 的 〈 分 区 的 ) 键 缓冲 ， 如 采 经 稍 遇 到 这 个 问题 ， 也 许可 以 带 来 帮助 。 


8.7 基于 工作 负载 的 配置 


配置 服务 器 的 一 个 目标 是 把 它 定 制 得 符合 特定 的 工作 负载 。 这 需要 精通 所 有 类 型 的 服务 
器 活动 的 数量 、 类 型 ， 以 及 频率 一 一 不 仅仅 是 查询 语句 ， 也 包括 其 他 的 活动 ， 例 如 连接 
服务 器 以 及 刷新 表 。 


第 一 件 应 该 做 的 事情 是 熟悉 你 的 服务 器 ， 如 果 还 没 做 就 赶紧 。 了 解 什么 样 的 查询 跑 在 上 
面 。 用 例如 innotop 这 样 的 工具 来 监控 它 ， 用 pt-query-digest 来 创建 查询 报告 。 这 不 仅 帮 
助 你 全 面 地 了 解 服务 器 正在 做 什么 ， 还 可 以 知道 查询 花费 大 量 时 间 做 了 哪些 事 。 第 3 章 
阐明 了 怎么 把 这 些 东 西 找 出 来 。 
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当 服 务 器 在 满载 情况 下 运行 时 ， 请 尝试 记录 所 有 的 查询 语句 ， 因 为 这 是 最 好 的 方式 来 
查看 哪 种 类 型 的 查询 语句 占用 资源 最 多 。 同 时 ， 创 建 processlist 快照 ， 通 过 state 或 者 
command 字段 来 聚合 它们 (innotop 可 以 实现 , 或 者 可 以 使 用 第 3 章 展 示 的 脚本 ) 。 例 如 ， 
是 否 大 量 地 在 复制 数据 到 临时 表 ， 或 者 排序 数据 ? 如 果 有 ， 也 许 需 要 优化 查询 语句 ， 以 
及 查看 临 时 表 和 排序 缓冲 配置 项 。 


8.7.1 优化 BLOB 和 TEXT 的 场景 


BLOB 和 TEXT 列 对 MySQL 来 说 是 特殊 类 型 的 场景 (我 们 把 所 有 BLOB 和 TEXT 都 简单 称 
为 BLOB 类 型 ， 因 为 它们 属于 相同 类 型 的 数据 ) 。BLOB 值 有 几 个 限制 使 得 服务 器 对 它 的 处 
理 跟 其 他 类 型 不 一 样 。 一 个 最 重要 的 注意 事项 是 ， 服 务 器 不 全 alae 时 表 中 存储 BLOB 
值 宇 “"“， 因 此， 如 果 一 个 查询 涉及 BL0B 值 , 又 需要 使 用 临时 表 管 它 多 小 一 一 它 都 会 
立即 在 磁盘 上 创建 临时 表 。 这 样 效率 很 低 ， 临时 表 可 能 是 查询 
中 最 大 的 开销 。 


有 两 种 办 法 来 减轻 这 个 不 利 的 情况 : 通过 SUBSTRING ( ) 函数 (第 4 章 有 更 多 关于 这 个 函 
数 的 细节 ) 把 值 转换 为 VARCHAR， 或 者 让 临时 表 更 快 一 些 。 


Lea TERRIER 把 它们 放 在 基于 内 存 的 文件 系统 (GNU/Linux 上 是 
tmpfs). 。 这 会 降低 一 些 开 销 ， 尽 管 这 依然 比 内 存 表 慢 许多 。 因 为 操作 系统 会 避免 把 数据 
写 到 磁盘 ， Eae a e 一 般 的 文件 系统 也 会 在 内 存 中 缓存 ， 
但 是 操作 系统 会 每 隔 儿 秒 就 刷新 一 次 。tmpfs 文件 系统 从 来 不 会 刷新 ， 它 就 是 为 低 开销 和 
简单 起 见 而 设计 的 。 例 如 ， 没 必要 为 这 个 文件 系统 预备 任何 恢复 方案 。 这 使 得 它 更 快 。 


服务 器 设置 里 控制 临时 表 文 件 放 在 哪 的 是 tmpdir。 建 议 监控 文件 系统 使 用 率 以 保证 有 足 
够 的 空间 存放 临时 表 。 如 果 需 要 , 可 以 指定 多 个 临时 表 存 放 位置 , MySQL 将 会 轮 询 使 用 。 


如 果 BLOB 列 非常 大 ， 并 且 用 的 是 InnoDB, Wif TUA InnoDB 在 这 
一 人 章 前 面 有 更 多 关于 这 方面 的 内 容 。 








对 于 很 长 的 变 长 列 ( 例 如，BLOB、TEXT， 以 及 长 字符 列 )，InnoDB 存储 一 个 768 FAHY 
前 级 在 行内 <=”。 如 果 列 的 值 比 前 组 长 , InnoDB 会 在 行 外 分 配 扩展 存储 空间 来 存 剩 下 的 部 
分 。 它 会 分 配 一 个 完整 的 16KB 的 页 ， 像 其 他 所 有 的 InnoDB 页 面 一 样 ， 每 个 列 都 有 自 
己 的 页 面 (不 同 的 列 不 会 共享 扩展 存储 空间 )。InnoDB 一 次 只 为 一 个 列 分 配 一 个 页 的 扩 


注 21 : 最 近 版 本 的 Percona Server 对 某 些 场 最 消除 了 这 个 限制 。 

注 22 : 如 果 操 作 系统 把 它 交换 (Swap) 出 内 存 ， 数 据 依然 会 到 磁盘 。 

注 23 : 这 个 长 度 足够 在 列 上 创建 一 个 255 字符 的 索引 ， 即 使 是 Utf8 的 (每 个 字符 可 能 需要 三 个 字 节 )， 
前 级 是 InnoDB 的 Antelope 文件 格式 特有 的 ，MySQL 5.1 和 更 新 版 本 中 的 Barracuda 格式 (默认 不 
打开 的 ) 没有 前 级 。 
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展 存 储 空间 ， 直 到 使 用 了 超过 32 个 页 以 后 ， 就 会 一 次 性 分 配 64 个 页 面 。 


注意 ,我 们 说 过 InnoDB 可 能 会 分 配 扩展 存储 空间 。 如 果 总 的 行 长 (包括 大 字段 的 完整 
KÆ) 比 InnoDB 的 最 大 行 长 限制 要 短 (EL 8KB 小 一 些 ) InnoDB 将 不 会 分 配 扩展 存储 
空间 ， 即 使 大 字段 (Long column) 的 长 度 超过 了 前 缓 长度。 


最 后 ， 当 InnoDB 更 新 存储 在 扩展 存储 空间 中 的 大 字段 时 ， 将 不 会 在 原来 的 位 置 更 新 。 
而 龙 会 在 扩展 存储 空间 中 写 一 个 新 值 到 一 个 新 的 位 置 ， 并 且 不 会 删除 旧 的 值 。 


所 有 这 一 切 都 有 以 下 后 果 : 


。 大 字段 在 InnoDB 里 可 能 浪费 大 量 空间 。 例 如 ， 若 存储 字段 值 只 是 比 行 的 要 求 多 了 
一 个 字 节 ,也 会 使 用 整个 页 面 来 存储 剩 下 的 字 节 ,浪费 了 页 面 的 大 部 分 空间 。 同 样 的 ， 
如 果 有 一 个 值 只 是 稍微 超过 了 32 个 页 的 大 小 ， 实 际 上 就 需要 使 用 96 个 页 面 。 

。 扩展 存储 禁用 了 自 适 应 哈 希 ， 因 为 需要 完整 地 比较 列 的 整个 长 度 ， 才 能 发 现 是 不 是 
正确 的 数据 ( 哈 希 帮助 InnoDB 非常 快速 地 找到 “猜测 的 位 置 "， 但 是 必须 检查 “ 猜 
测 的 位 置 ” 是 不 是 正确 )。 因 为 自 适 应 哈 希 是 完全 的 内 存 结构 ， 并 且 直 接 指向 Buffer 
Pool 中 访问 “最 ”频繁 的 页 面 ， 但 对 于 扩展 存储 空间 却 无 法 使 用 自 适应 哈 希 。 

e 太 长 的 值 可 能 使 得 在 查询 中 作为 WHERE 条 件 不 能 使 用 索引 ， 因 而 执行 很 慢 。 在 应 
用 WHERE 条 件 之 前 ，MySQL 需要 把 所 有 的 列 读 出 来 ， 所 以 可 能 导致 MySQL BK 
InnoDB 读 取 很 多 扩展 存储 ， 然 后 检查 WHERE 条 件 ， 扫 弃 所 有 不 需要 的 数据 。 查 询 不 
需要 的 列 绝 不 是 好 主意 ， 在 这 种 特殊 的 场景 下 尤其 需要 避免 这 样 做 。 如 果 发 现 查询 
正 遇 到 这 个 限制 带 来 的 问题 ， 可 以 尝试 通过 覆盖 索引 来 解决 部 分 问题 。 

© 如果 一 张 表 里 有 很 多 大 字段 ， 最 好 是 把 它们 组 合 起 来 单独 存 到 一 个 列 里 面 ， 比 如 说 
H XML 文档 格式 存储 。 这 让 所 有 的 大 字段 共享 一 个 扩展 存储 空间 ， 这 比 每 个 字段 
用 自己 的 页 要 好 。 

。 有 时 候 可 以 把 大 字段 用 COMPRESS() 压缩 后 再 存 为 BLOB， 或 者 在 发 送 到 MySQL 前 在 
应 用 程序 中 进行 压缩 ， 这 可 以 获得 显著 的 空间 优势 和 性 能 收益 。 


8.7.2 优化 排序 (Filesorts ) 


从 第 6 章 我 们 知道 MySQL 有 两 种 排序 算法 。 如 果 查 询 中 所 有 需要 的 列 和 ORDER BY 的 列 
总 大 小 超过 max_length_for_sort_data 73, NRH two-pass 算法 。 或 者 当 任 何 需 要 
的 列 一 一 即使 没有 被 ORDER BY 使 用 的 列 一 一 是 BLOB 或 者 TEX, 也 会 采用 这 个 算法 。( 可 
以 用 SUBSTRING() 把 这 些 列 转换 一 下 ， 就 可 以 用 single-pass 算法 了 。) 


MySQL 有 两 个 变量 可 以 控制 排序 怎样 执行 。 通 过 修改 max_Length_for_sort_data 变 
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EF” 的 值 ， 可 以 影响 MySQL 选择 哪 种 排序 算法 。 因 为 single-pass 算法 为 每 行 需要 排序 
的 数据 创建 一 个 固定 大 小 的 缓冲 ， 对 于 VARCHAR 列 ， 在 和 max length for sort data 比 
较 时 ， 使 用 的 是 其 定义 的 最 大 长 度 ， 而 不 是 所 存储 数据 的 实际 长 度 。 这 也 是 为 什么 我 们 
建议 只 选择 必要 的 列 的 一 个 原因 。 


当 MySQL 必须 排序 BLOB z TEXT 字段 时 ， 它 只 会 使 用 前 级 ， 然 后 忽略 剩 下 部 分 的 值 。 
这 是 因为 缓冲 只 能 分 配 固定 大 小 的 结构 体 来 保存 要 排序 的 值 ， 然 后 从 扩展 存储 空间 中 复 
制 前 缀 到 这 个 结构 体 中 。 使 用 max sort length 变量 可 以 指定 这 个 前 级 有 多 大 。 


可 惜 ，MySQL 无 法 查看 它 用 了 哪个 算法 。 如 果 增 加 了 max_length for sort data 变量 
的 值 ， 磁 盘 使 用 率 上 升 了 ，CPU 使 用 率 下 降 了 ， 并 且 Sort_merge passes 状态 变量 相对 
于 修改 之 前 开始 很 快 地 上 升 ， 也 许 是 强制 让 很 多 的 排序 使 用 了 single-pass 算法 。 


8.8 完成 基本 配置 


我 们 已 经 完成 了 服务 器 内 核 的 旅程 一 一 希望 你 喜欢 这 个 旅程 ! 现在 让 我 们 回 到 示例 配 
置 ， 并 且 看 下 怎样 修改 剩 下 的 配置 。 


我 们 已 经 讨论 了 怎样 设置 一 般 的 选项 ， 例 如 数据 目录 、InnoDB 和 MyISAM RF, AG, 
还 有 其 他 的 一 些 。 让 我 们 重 温 剩 下 的 那些 : 


tmp_table_size 和 max _heap table Size 
这 两 个 设置 控制 使 用 Memory 引擎 的 内 存 临时 表 能 使 用 多 大 的 内 存 。 如 果 隐 式 内 存 
临时 表 的 大 小 超过 这 两 个 设置 的 值 ， 将 会 被 转换 为 磁盘 MyISAM 表 ， 所 以 它 的 大 小 
可 以 继续 增长 。( 隐 式 临 时 表 是 一 种 并 非 由 自己 创建 ， 而 是 服务 器 创建 ， 用 于 保存 执 
行 中 的 查询 的 中 间 结 果 的 表 。) 
应 该 简单 地 把 这 两 个 变量 设 为 同样 的 值 。 我 们 的 示例 配置 文件 中 选择 了 32M。 这 可 
能 不 够 但 是 要 谨防 这 个 变量 太 大 了 。 临 时 表 最 好 呆 在 内 存 里 ， 但 是 如 有 果 它 们 被 撑 
得 很 大 ， 实 际 上 还 是 让 它们 使 用 磁盘 比较 好 ， 否 则 可 能 会 让 服务 器 内 存 洲 出 。 
假设 查询 语句 没有 创建 庞大 的 临时 表 ( 通 常 可 以 通过 合理 的 索引 和 查询 设计 来 避免 )， 
那 把 这 些 变量 设 大 一 点 ， 免 得 需要 把 内 存 临 时 表 转 换 为 磁盘 临时 表 。 这 个 过 程 可 以 
在 SHOW PROCESSLIST 中 看 到 。 
可 以 查看 服务 器 的 SHOW STATUS 计数 器 在 某 段 时 间 内 的 变化 ， 以 此 来 查看 创建 临时 
表 的 频率 以 及 是 否 是 磁盘 临时 表 。 你 不 能 判断 一 张 〈 临 时 ) 表 是 先 创建 为 内 存 表 
然后 被 转换 为 了 磁盘 表 ， 还 是 一 开始 就 创建 的 磁盘 表 (可 能 因为 有 BL0B 字 段 )， 但 
224; AMA LIMITA GH, MySQLSGSAEMAL SOMA, HLAPE-AT RRI 


个 昂贵 的 安装 历程 而 使 用 庞大 的 排序 缓冲 的 问题 ， 所 以 如 果 升 级 到 了 MySQL 5.6， 需 要 特别 小 心 
地 检查 这 些 设置 中 任何 自 定义 的 设置 。 
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是 至 少 可 以 看 到 创建 磁盘 临时 表 有 多 频繁 。 仔 细 检 查 Created_tmp_disk_tables 和 
Created tmp tables 变量 。 


max_connections 


这 个 设置 的 作用 就 像 一 个 紧急 刹车 ， 以 保证 服务 器 不 会 因应 用 程序 激增 的 连接 而 不 
堪 重 负 。 如 果 应 用 程序 有 问题 ， 或 者 服务 器 遇 到 如 连接 延迟 的 问题 ， 会 创建 很 多 新 
连接 。 但 是 如 果 不 能 执行 查询 ， 那 打开 一 个 连接 没有 好 处 ， 所 以 被 “ 太 多 的 连接 ” 
的 错误 拒绝 是 一 种 快速 而 代价 小 的 失败 方式 。 

把 max_connections 设置 得 足够 高 ， 以 容纳 正常 可 能 达到 的 负载 ， 并 且 要 足够 安全 ， 
能 保证 允许 你 登录 和 管理 服务 器 。 例 如 ， 若 认为 正常 情况 将 有 300 或 者 更 多 连接 ， 
则 可 以 设置 为 500 或 者 更 多 。 如 果 不 知道 将 会 有 多 少 连 接 ，500 也 不 是 一 个 不 合理 
的 起 点 。 默 认 值 是 100， 对 大 部 分 应 用 来 说 这 都 不 够 。 

要 时 时 小 心 可 能 遇 到 连接 限制 的 突然 袭击 。 例 如 ， 若 重新 启动 应 用 服务 器 ， 可 能 没 
有 把 它 的 连接 关闭 和 干净， 同时 MySQL 可 能 没有 意识 到 它们 已 经 被 关闭 了 。 当 应 用 
服务 器 重新 开始 运转 ， 并 试图 打开 到 数据 库 的 连接 ， 就 可 能 由 于 挂 起 的 连接 还 没有 
超时 ， 而 使 新 连接 被 拒绝 。 

观察 Max_used_connections 状态 变量 随 着 时 间 的 变化 。 这 个 是 高 水 位 标记 ， 可 
以 告诉 你 服务 器 连接 是 不 是 在 某 个 时 间 点 有 个 尖峰 。 如 果 这 个 值 达 到 了 max 
connections, 说 明 客 户 端 至 少 被 拒绝 了 一 次 ， 并 且 当 它 重 现 的 时 候 ， 应 该 使 用 第 3 
章 中 的 技巧 来 抓 取 服 务 器 的 活动 状态 。 


thread cache size 
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设置 这 个 变量 ， 可 以 通过 观察 服务 器 一 段 时 间 的 活动 ， 来 计算 一 个 有 理 有 据 的 值 。 
观察 Threads_connected 状态 变量 并 且 找 到 它 在 一 般 情 况 下 的 最 大 值 和 最 小 值 。 你 
也 许 希望 把 线程 缓存 设置 得 足够 大 ,以 在 高 峰 和 低谷 时 都 足够 ,其 至 可 能 更 大 方 一 些 ， 
因为 就 算 设置 得 有 点 太 大 了 ， 一般 也 不 是 大 问题 。 你 也 许可 以 设置 为 波动 范围 两 到 
三 倍 的 大 小 。 例 如 ， 若 Threads connected 状态 从 150 变化 到 175， 可 以 设置 线程 
缓存 为 75。 但 是 也 不 用 设置 得 非常 大 ， 因 为 保持 大 量 等 待 连接 的 空间 线程 并 没有 什 
么 真正 的 用 处 。250 的 上 限 是 个 不 错 的 估算 值 (或 者 256， 如 果 你 喜欢 2 的 次 方 。) 
也 可 以 观察 Threads created 状态 随 着 时 间 的 变化 。 如 果 这 个 值 很 大 或 者 一 直 增 长 ， 
这 是 另 一 个 线索 ， 告 诉 你 可 能 需要 调 大 th read_cache_size 变量 。 查 看 Threads_ 
cached 来 看 有 多 少 线程 已 经 在 缓存 中 了 。 

一 个 相关 的 状态 变量 是 Slow launch threads。 这 个 状态 如 果 是 个 很 大 的 值 ， 那 么 
意味 着 某 些 情况 延迟 了 连接 分 配 新 线程 。 这 也 是 个 线索 ， 可 能 服务 器 有 些 问 题 了 ， 
但 是 不 能 明确 地 指出 是 哪 出 问题 了 。 一 般 来 说 ， 可 能 是 系统 过 载 了 ， 导 致 操作 系统 
不 能 为 新 创建 的 线程 调度 CPU。 这 不 是 说 你 就 需要 增加 线程 缓存 的 大 小 了 。 你 应 该 
诊断 这 个 问题 并 且 修 复 它 ， 而 不 是 用 缓存 来 掩盖 问题 ， 因 为 这 还 可 能 导致 其 他 问题 。 
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table cache size 
这 个 缓存 (或 者 在 MySQL 5.1 中 被 分 成 两 个 缓存 区 ) 应 该 被 设置 得 足够 大 ， 以 避 
免 总 是 需要 重新 打开 和 重新 解析 表 的 定义 。 你 可 以 通过 观察 Open_tables 的 值 及 其 
在 一 段 时 间 的 变化 来 检查 该 变量 。 如 果 你 看 到 Opened_tables 每 秒 变化 很 大 ， 那 么 
table_cache 值 可 能 不 够 大 。 隐 式 临时 表 也 可 能 导致 打开 表 的 数量 不 断 增长 ， 即 使 
表 缓 存 并 没有 用 满 ， 所 以 这 可 能 也 没什么 问题 。 
该 问题 的 线索 应 该 是 Opened tables 不 断 地 增长 ， 即 使 Open tables 并 不 跟 table_ 
cache size 一样 大 。 
虽然 表 缓 存 很 有 用 ， 也 不 应 该 把 这 个 变量 设置 得 太 大 。 表 缓存 可 能 在 两 种 情况 下 二 
得 其 反 。 
首先 ，MySQL 没有 一 个 很 有 效 的 方法 来 检查 缓存 ， 所 以 如 果真 的 太 大 了 ， 可 能 效率 
会 下 降 。 在 大 部 分 情况 下 ， 不 应 该 把 它 设 置 得 大 于 10 000， 或 者 是 10 240, MRE 
欢 使 用 2 的 入 次 方 的 话 。 守 ”3 
第 二 个 原因 是 有 些 类 型 的 工作 负载 是 不 能 缓存 的 。 如 果 工 作 负 载 不 是 可 缓存 的 ， 不 
管 把 缓存 设置 得 多 大 ， 任 何 访 问 都 无 法 在 缓存 命中 ， 忘 记 缓 存 吧 ， 把 它 设置 为 0 1 
这 可 以 避免 情况 变 得 更 粳 糕 ， 缓 存 不 命中 比 昂 贵 的 缓存 检查 后 再 不 命中 还 是 要 好 的 。 
什么 类 型 的 工作 负载 不 是 可 缓存 的 ? 如 果 有 几 万 或 几 十 万 张 表 ， 并 且 它 们 都 很 均匀 
地 被 使 用 ， 就 不 可 能 把 它们 全 缓存 了 .， 最 好 把 这 个 变量 设 得 小 一 点 。 当 系统 上 有 数 
量 非 常 多 的 并 行 应 用 而 其 中 没有 一 个 是 非常 忙碌 的 ， 有 了 时候 这 是 适当 的 。 
这 个 值 从 max_connections 的 10 倍 开始 设置 是 比较 有 道理 的 ， 但 是 再 次 说 明 ， 在 大 
部 分 场景 下 最 好 保持 在 10 000 以 下 甚至 更 低 。. 


还 有 其 他 一 些 类 型 的 设置 可 能 经 常会 包含 在 配置 文件 中 ， 包 括 二 进 制 日 志 以 及 复制 设置 。 
二 进 制 日 志 对 恢复 到 某 个 时 间 点 ， 以 及 复制 是 非常 有 用 的 ， 另 外 复制 还 有 一 些 它 自己 的 
设置 。 我 们 会 在 本 书后 面 的 章节 中 覆盖 复制 和 备份 的 重要 设置 。 


| py * 
8.9 安全 和 稳定 的 设置 
基本 配置 设置 到 位 后 ， 可 能 希望 启用 一 些 使 服务 器 更 安全 和 更 可 靠 的 设置 。 它 们 中 的 一 
些 会 影响 性 能 ， 因 为 保证 安全 性 和 可 靠 性 往往 要 付出 一 些 人 代价。 有些 人 意识 到 了 : 他 们 
能 阻止 愚蠢 的 错误 发 生 ， 比 如 把 无 意义 的 数据 搬入 服务 器 ， 以 及 一 些 变动 在 日 党 操作 中 
设 有 啥 区 别 ， 只 是 在 很 边缘 的 情况 防止 粳 糕 的 事情 发 生 。 
让 我 们 首先 来 看 看 收集 的 一 些 对 一 般 服 务 器 都 有 用 的 配置 项 : 


注 25 : 你 听 说 过 一 个 关于 二 进 制 的 笑话 嘛 ? 世界 上 有 10 种 人 : 部 分 是 懂 二 进 制 的 ， 部 分 不 懂 二 进 制 。 还 
有 另外 10 种 人 : 一 些 认 为 二 进 制 /十进制 的 笑话 有 意思 ， 一 些 是 精 虫 上 脑 。 我 们 不 会 说 我 们 是 否 
认为 这 是 滑 稳 的 。 
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expire logs days 

如 果 启 用 了 二 进 制 日 志 ， 应 该 打开 这 个 选项 ， 可 以 让 服务 器 在 指定 的 天 数 之 后 清理 
昌 的 二 进 制 日 志 。 如 果 不 启 用 ,最 终 服 务 器 的 空间 会 被 耗 尽 ,导致 服务 器 卡 住 或 崩溃。 
我 们 建议 把 这 个 选项 设置 得 足够 从 两 个 备份 之 前 恢复 (在 最 近 的 备份 失败 的 情况 下 )。 
即使 每 天 都 做 备份 ， 还 是 建议 留 下 7 ~ 14 天 的 二 进 制 日 志 。 从 我 们 的 经 验 来 看 ， 当 
遇 到 一 些 不 常见 的 问题 时 ， 你 会 感谢 有 这 一 两 个 星期 的 二 进 制 日 志 。 例 如 重 搭 一 个 
备 机 再 次 尝试 赶 上 主 库 。 应 该 保持 足够 多 的 二 进 制 日 志 ， 遇 到 这 些 情况 时 可 以 给 自 

o 己 一 些 呼吸 的 空间 。 

max_allowed_packet 
这 个 设置 防止 服务 器 发 送 太 大 的 包 ， 也 会 控制 多 大 的 包 可 以 被 接收 。 上 默认 值 可 能 太 
小 了 ， 但 设置 得 太 大 也 可 能 有 和 危险。 如 果 设 置 得 太 小 ， 有 时 复制 上 会 出 问题 ， 通 常 
表现 为 备 库 不 能 接收 主 库 发 过 来 的 复制 数据 。 你 也 许 需 要 增加 这 个 设置 到 16MB 或 
者 更 大 。 这 些 文 档 里 没有 ， 但 这 个 选项 也 控制 在 一 个 用 户 定义 的 变量 的 最 大 值 ， 所 
以 如 果 需 要 非常 大 的 变量 ， 要 小 心 一 一 如 果 超 过 这 个 变量 的 大 小 ， 它 们 可 能 被 截断 
或 者 设置 为 NULL。 

max_connect_errors 
如 果 有 时 网 络 短暂 抽风 了 ， 或 者 应 用 配置 出 现 错 误 ， 或 者 有 另外 的 问题 ， 如 权限 ， 
在 短暂 的 时 间 内 不 断 地 尝试 连接 ， 客 户 端 可 能 被 列 入 黑 名 单 ， 然 后 将 无 法 连接 ， 直 
到 再 次 刷新 主机 缓存 。 这 个 选项 的 默认 设置 太 小 了 ， 很 容易 导致 问题 。 你 也 许 希 望 
增加 这 个 值 ， 实 际 上 ， 如 果 知 道 服务 器 可 以 充分 抵御 蛮 力 攻击 ， 可 以 把 这 个 值 设 得 
非常 大 ， 以 有 效 地 禁用 主机 黑 名 单 。 

skip name resolve 
这 个 选项 禁用 了 另 一 个 网 络 相关 和 鉴 权 认证 相关 的 陷阱 : DNS 查找 。DNS 是 
MySQL 连接 过 程 中 的 一 个 薄弱 环节 。 当 连接 服务 器 时 ， 默 认 情 况 下 ， 它 试图 确定 连 
接 和 使 用 的 主机 的 主机 名 ， 作 为 身份 验证 凭据 的 一 部 分 。( 就 是 说 ， PRRI Sete AP 








要 执行 DNS 的 正 向 和 反 向 查找 。 要 是 DNS 有 问题 就 悲剧 了 ， 在 某 些 时 间 点 这 是 必 

然 的 事 。 当 发 生 这 样 的 情况 时 ， 所 有 事 都 会 堆积 起 来 ， 最 终 导致 连接 超时 。 为 了 避 

免 这 种 情况 ， 我 们 强烈 建议 设置 这 个 选项 ， 在 验证 时 关闭 DNS 查找 。 然 而 ， 如 果 这 
么 做 ,需要 把 基于 主机 名 的 授权 改 为 用 卫 地 址 .通配符 ,或 者 特定 主机 名 “localhost ， 

因为 基于 主机 名 的 账号 会 被 禁用 。 

sql_mode 

这 个 设置 可 以 接受 多 种 多 样 的 值 来 改变 服务 器 行为 。 我 们 不 建议 只 是 为 了 好 玩 而 改 

变 这 个 值 ; 最 好 在 大 多 数 情 况 下 让 MySQL 像 MySQL ， 不 要 尝试 让 它 的 行为 像 其 他 

数据 库 服务 器 。( 许 多 客户 端 和 图 形 界面 工具 ,除了 MySQL 还 有 它们 自己 的 SQL 
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言 ， 例 如 ， 若 修改 它 用 更 符合 ANSI 的 SQL， 有些 操作 会 没 法 做 。) 然而 ， 有 些 选 
项 值 是 很 有 用 的 ,有 些 在 具体 情况 可 能 是 值得 考虑 的 ,建议 查看 文档 中 下 面 这 些 选 项 ， 
并 且 考 虑 使 用 它们 : STRICT TRANS TABLES, ERROR FOR DIVISION BY ZERO, NO_ 
AUTO CREATE USER, NO AUTO VALUE ON ZERO, NO ENGINE SUBSTITUTION, NO ZERO_ 
DATE, NO ZERO IN DATE 和 ONLY FULL GROUP BY, 
然而 ， 要 意识 到 对 已 经 存在 的 应 用 修改 这 些 设置 值 可 不 是 个 好 主意 ， 因 为 这 么 做 可 
能 让 服务 器 跟 应 用 预期 不 兼容 。 人们 不 经 意 间 写 的 查询 中 应 用 的 列 不 在 GROUP BY +, 
或 者 使 用 聚合 函数 ， 这 种 情况 非常 常见 ， 例 如 , 若 想 打开 ONLY_FULL_GROUP_BY 选项 ， 
最 好 首先 在 开发 或 未 上 线 服 务 器 上 做 一 下 测试 ， 一旦 要 在 生产 环境 部 署 则 必须 确认 
所 有 地 方 都 可 以 工作 。 

sysdate is now 
这 是 另 一 个 可 能 导致 与 应 用 预期 向 后 不 兼容 的 选项 。 但 如 果 不 是 明确 需要 
SYSDATE() 函数 的 非 确定 性 行为 〈 非 确定 性 行为 可 能 会 导致 复制 中 断 或 者 使 得 基于 
时 间 点 的 备份 恢复 结果 不 可 信 ) ， 那 么 你 可 能 希望 打开 该 选项 以 确保 SYSDATE() 函数 
有 确定 的 行为 。 


下 面 的 选项 可 以 控制 复制 行为 ， 并 且 对 防止 备 库 出 问题 非常 有 帮助 : 


read only 
这 个 选项 禁止 没有 特权 的 用 户 在 备 库 做 变更 ， 只 接受 从 主 库 传输 过 来 的 变更 ， 不 接 
受 从 应 用 来 的 变更 。 我 们 强烈 建议 把 备 库 设置 为 只 读 模式 。 

skip slave start 
这 个 选项 阻止 MySQL 试图 自动 启动 复制 。 因为 在 不 安全 的 月 涡 或 其 他 问题 后 ， 启 
动 复制 是 不 安全 的 ， 所 以 需要 禁用 自动 启动 ， PEE are 并 确定 它 

是 安全 的 之 后 再 开始 复制 。 

slave net timeout 
这 个 选项 控制 备 库 发 弄 腿 主 库 的 连接 已 经 失败 并 且 需 要 重 过 之 前 等 待 的 时 间 。 默认 
值 是 一 个 小 时 ， 太 长 了 。 设 置 为 一 分 钟 或 更 短 。 

sync master info, sync_relay log, sync_relay log info 
这 些 选 项 , 在 MySQL 5.5 以 及 更 新 版 本 中 可 用 , 解决 了 复制 中 备 库 长 期 存在 的 问题 : 
不 把 它们 的 状态 文件 同步 到 磁盘 ， 所 以 服务 器 崩溃 后 可 能 需要 人 来 猜测 复制 的 位 置 
实际 上 在 主 库 是 哪个 位 置 ， 并 且 可 能 在 中 继 日 志 (Relay Log) 里 有 损坏 。 这 些 选 项 
使 得 备 库 崩溃 后 ， 更 容易 从 甬 溃 中 恢复 。 这 些 选 项 默认 是 不 打开 的 ， 因 为 它们 会 导 
致 备 库 额 外 的 fsync() 操作 ， 可 能 会 降低 性 能 。 如 果 有 很 好 的 硬件 ， 我 们 建议 打开 
这 些 选 项 ， 如 采 复 制 中 出 现 fsync() 造成 的 延 时 间 题 ， 就 应 该 关闭 它们 。 
Percona Server 中 有 一 种 侵入 性 更 小 的 方式 来 做 这 些 工 作 ， 即 打开 innodb 
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overwrite relay log info 选 项。 这 可 以 让 InnoDB 在 事务 日 志 中 存储 复制 的 位 
置 ， 这 是 完全 事务 化 的 ， 并 且 不 需要 任何 额外 的 fsync() 操作 。 在 崩溃 恢复 期 间 ， 
InnoDB 会 检查 复制 的 元 信息 文件 ， 如 果 文 件 过 期 了 就 更 新 为 正确 的 位 置 。 
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回 到 第 1 章 我 们 讨论 的 InnoDB 历史 : 首先 是 内 建 (built-in) 的 版 本 ， 然 后 有 了 两 个 有 
效 版 本 ， 现 在 更 新 的 版 本 再 次 变 成 了 一 个 。 更 新 的 InnoDB 代码 有 更 多 的 功能 和 非常 好 
的 扩展 性 。 如 果 正 在 使 用 MySQL 5.1， 应 该 明确 地 配置 MySQL 忽略 旧版 本 的 InnoDB 
而 使 用 新 版 的 。 这 将 极 大 地 提升 服务 器 性 能 。 需 要 打开 ignore builtin innodb 选项 ， 
然后 配置 plugin_load 选项 把 InnoDB 作为 插件 打开 。 建 议 参考 InnoDB 文档 中 对 应 平 
台 上 的 扩展 语法 生 ”。 


对 于 新 版 本 的 InnoDB， 有 一 些 新 的 选项 可 以 用 。 如 果 启 用 ， 它 们 中 有 些 对 服务 器 性 能 
相当 重要 ， 也 有 一 些 安全 性 和 稳定 性 的 选项 ， 如 下 所 示 。 


innodb 
这 个 看 似 平淡 无 奇 的 选项 实际 上 非常 重要 ， 如 果 把 这 个 值 设置 为 FORCE， 只 有 在 
InnoDB 可 以 启动 时 ， 服 务 器 才 会 启动 。 如 果 使 用 InnoDB 作为 默认 存储 引擎 ， 这 一 
定 是 你 期 望 的 结果 。 你 应 该 不 会 希望 在 InnoDB 失败 (例如 因为 错误 的 配置 而 导致 
的 不 可 启动 ) 的 情况 下 启动 服务 器 ， 因 为 写 的 不 好 的 应 用 可 能 之 后 会 连接 到 服务 器 ， 
导致 一 些 无 法 预知 的 损失 和 混乱 。 最 好 是 整个 服务 器 都 失败 ， 强 制 你 必须 查看 错误 
日 志 ， 而 不 是 以 为 服务 器 正 稼 局 动 了 。 

innodb autoinc_lock mode 
这 个 选项 控制 InnoDB 如 何 生成 目 增 主 键 值 ， 某 些 情 况 下 ， 例 如 高 并 发 插入 时 ， 自 
增 主键 可 能 是 个 瓶颈 。 如 果 有 很 多 事务 等 待 自 增 锁 (可 以 在 SHOW ENGINE INNODB 
STATUS 里 看 到 ) ， 应 该 审视 这 个 变量 的 设置 。 手 册 上 已 经 详细 解释 了 该 选项 的 行为 ， 
在 此 我 们 就 不 再 重复 了 。 

innodb buffer pool instances 
这 个 选项 在 MySQL 5.5 和 更 新 的 版 本 中 出 现 ， 可 以 把 缓冲 池 切 分 为 多 段 ， 这 可 能 是 
在 高 负载 的 多 核 机 器 上 提升 MySQL 可 扩展 性 最 重要 的 一 个 方式 了 。 多 个 缓冲 池 分 
散 了 工作 压力 ， 所 以 一 些 全 局 Mutex 竞争 就 没有 那么 大 了 。 
目前 尚 不 清楚 什么 情况 下 应 该 选择 多 个 缓冲 池 实 例 。 我 们 运行 过 八 个 实例 的 基准 ， 
但 是 直到 MySQL 5.5 已 经 广泛 部 署 了 很 长 一 段 时 间 ， 我 们 依然 不 明白 多 个 缓冲 池 实 


注 26 : Æ Percona Server 中 ， 只 有 一 个 版 本 的 InnoDB， 并 且 是 内 建 的 ， 所 以 你 不 需要 禁用 一 个 版 本 然后 
载 入 另 一 个 版 本 替换 它 。 
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例 的 一 些微 妙 之 处 。 
我 们 不 是 暗示 MySQL 5.5 没有 在 生产 环境 广泛 部 署 。 只 是 对 我 们 已 经 帮助 解决 过 的 
大 部 分 互 斥 锁 相互 争 用 的 极端 场景 的 用 户 来 说 ， 升 级 可 能 需要 很 多 个 月 的 时 间 来 计 
划 、 验 证 ， 并 执行 。 这 些 用 户 有 时 运行 着 高 度 定制 化 的 MySQL 版 本 ， 使 得 更 加 倍 
谨慎 地 对 待 升 级 。 当 越 来 越 多 的 这 类 用 户 升级 到 MySQL 5.5， 并 以 他 们 独特 的 方式 
进行 压力 验证 ， 我 们 可 能 会 学 到 关于 多 缓冲 池 的 一 些 我 们 没 见 过 的 有 趣 的 事情 。 也 
许 直到 那 时 ， 我 们 才 可 以 说 运行 八 个 缓冲 池 实 例 是 非常 有 益 的 。 
值得 注意 的 是 Percona Server 用 了 不 同 的 方法 来 解决 InnoDB 互 斥 锁 争 用 问题 。 相 
对 于 把 缓冲 池 分 成 多 个 一 一 一 个 在 许多 像 InnoDB 的 系统 下 经 过 检验 无 可 否认 的 方 
法 一 一 我 们 选择 把 一 些 全 局 Mutex 拆 分 为 更 细 、 更 专用 的 Mutex。 我 们 的 测试 显示 
最 好 的 方式 是 结合 这 两 种 方法 ， 在 Percona Server 5.5 版 本 中 已 经 可 用 了 : 多 缓冲 区 
和 更 细 粒 度 的 锁 。 
innodb io capacity 
InnoDB 曾经 在 代码 里 写 死 了 假设 服务 器 运行 在 每 秒 100 个 IO 操作 的 单 硬盘 上 。 软 
认 值 很 精 糕 。 现 在 可 以 告诉 InnoDB 服务 器 有 多 大 的 I/O 能 力 。InnoDB 有 时 需要 把 
这 个 设置 得 相当 高 (在 像 PCI-E SSD 这 样 极 快 的 存储 设备 上 需要 设置 为 上 万 ) 才能 
稳定 地 刷新 脏 页 ， 原 因 解 释 起 来 相当 复杂 。 
innodb read io threads 和 innodb write io threads 
这 些 选项 控制 有 多 少 后 台 线 程 可 以 被 IO 操作 使 用 。 最 近 版 本 的 MySQL 里 ， 黑 认 
值 是 4 个 读 线程 和 4 个 写 线程 ， 对 大 部 分 服务 器 这 都 足够 了 ， 尤 其 是 MySQL 5.5 里 
面 可 以 用 操作 系统 原生 的 异步 IO 以 后 。 如 果 有 很 多 硬盘 并 且 工 作 负 载 并 发 很 大 ， 
可 以 发 现 这 些 线程 很 难 跟 上 ， 这 种 情况 下 可 以 增加 线程 数 ， 或 者 可 以 简单 地 把 这 个 
选项 的 值 设 置 为 可 以 提供 IO 能 力 的 磁盘 数量 (即使 后 面 是 一 个 RAID 控制 器 )。 
innodb strict mode 
这 个 设置 让 MySQL 在 某 些 条 件 下 把 警告 改 成 抛 错 ， 尤 其 是 无 效 的 或 者 可 能 有 风险 
的 CREATE TABLE 选项 。 如 果 打 开 这 个 设置 ， 就 必然 会 检查 所 有 CREATE TABLE 选项 ， 
因为 它 不 会 让 你 创建 一 些 用 起 来 比较 更 (但 是 有 隐患 ) 的 表 。 有 时 这 有 点 悲观 ， 过 
于 严格 了 。 当 葡 试 恢复 备份 时 可 能 就 不 希望 打开 这 个 选项 了 。 
innodb old blocks time 
InnoDB 有 个 两 段 缓冲 池 LRU (最 近 最 少 使 用 ) 链表 ， 设 计 目 的 是 防止 换 出 长 期 使 
用 很 多 次 的 页 面 。 像 mysqldump 产生 的 这 种 一 次 性 的 (大) 查询 ， 通 常会 读 取 页 
面 到 缓冲 地 的 LRU 列表 ， 从 中 读 取 需要 的 行 ， 然 后 移动 到 下 一 页 。 理 论 上 ， 两 段 
LRU 链表 将 阻止 此 页 取代 很 长 一 段 时 间 内 都 需要 用 到 的 页 面 被 放 入 “年 轻 (Young)” 
子 链表 ， 并 且 只 在 它 已 被 浏览 过 多 次 后 将 其 移动 到 “年 老 (O01d)” 子 链表 。 但 是 
InnoDB 默认 没有 配置 为 防止 这 种 情况 ， 因 为 页 内 有 很 多 行 ， 所 以 从 页 面 读 取 的 行 的 
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多 次 访问 ， 会 导致 它 立即 被 转移 到 “年 老 (01d)” 子 链表 ， 对 那些 需要 长 时 间 缓 存 
的 页 面 带 来 换 出 的 压力 。 | 

这 个 变量 指定 一 个 页 面 从 LRU 链表 的 “年 轻 ” 部 分 转移 到 “年 老 ” 部 分 之 前 必须 经 
过 的 蹇 秒 数 。 默 认 情 况 下 它 设 置 为 0， 将 它 设 为 诸如 1 000 毫秒 (一 秒 ) 这 样 的 小 一 
点 的 值 ， 在 我 们 的 基准 测试 中 已 被 证 明 非 常 有 效 。 


8.11 总 结 


在 阅读 完 这 一 章节 之 后 ， 你 应 该 有 了 一 个 比 默认 设置 好 得 多 的 服务 器 配置 。 服 务 器 应 该 
更 快 更 稳定 了 ， 并 且 除 非 运 行 出 现 了 罕见 的 状况 ， 都 应 该 没有 必要 再 去 做 优化 配置 的 工 
作 了 。 


复习 一 下 ， 我 们 建议 从 参考 示例 配置 文件 开始 ， 设 置 符合 服务 器 和 工作 负载 的 基本 选项 ， 
增加 安全 性 和 完整 性 所 需 的 选项 ， 并 且 ， 如 果 合 适 的 话 ， 在 MySQL 5.5 中 配置 新 版 的 
InnoDB Plugin 才 有 的 配置 项 。 这 就 是 关于 优化 服务 器 配置 所 需要 做 的 全 部 的 事情 。 


如 果 使 用 的 是 InnoDB， 最 重要 的 选项 是 下 面 这 两 个 : 


e innodb buffer pool size 
e innodb log file size 





ASE PR 你 解决 了 我 们 见 过 的 真实 存在 的 配置 问题 中 的 绝 大 部 分 ! 如 果 使 用 我 们 的 在 
线 配 置 工具 http://tools.percona.com， 对 这 些 问 题 和 其 他 配置 选项 的 使 用 ， 会 得 到 很 好 的 
建议 。 


我 们 也 提出 了 很 多 关于 不 要 做 什么 的 建议 。 其 中 最 重要 的 是 不 要 “ 调 优 ”服务 器 ; 不 要 
使 用 比率 、 公 式 或 “ 调 优 脚本 ”作为 设置 配置 变量 的 基础 ; 不 要 信任 来 自 互 联网 上 的 不 
明 身 份 的 人 的 意见 ; 不 要 为 了 看 起 来 很 糟糕 的 事情 去 不 断 地 刷 SHOW STATUS。 如 果 有 些 
设置 其 实 是 错误 的 ， 在 剖析 服务 器 性 能 时 也 会 展现 出 来 。 


有 几 个 重要 的 设置 没有 在 本 章 讨 论 ， 主 要 是 因为 它们 是 为 特定 类 型 的 硬件 和 工作 负载 服 
务 的 。 我 们 暂 不 讨论 这 些 设置 ， 因 为 我 们 相信 ， 任 何 关 于 怎样 设置 的 意见 ， 都 需要 与 内 
部 流程 的 解释 工作 一 起 来 做 。 这 给 我 们 带 来 了 下 一 章 ， 它 会 告诉 你 如 何 优 化 MySQL 的 
硬件 和 操作 系统 ， 反 之 亦 然 。 
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第 9 章 on 


操作 系统 和 硬件 优化 





MySQL 服务 器 性 能 受制 于 整个 系统 最 薄弱 的 环节 ， 承 载 它 的 操作 系统 和 硬件 往往 是 限 
制 因素 。 磁 盘 大 小 、 可 用 内 存 和 CPU 资源 、 网 络 ， 以 及 所 有 连接 它们 的 组 件 ， 都 会 限 
制 系统 的 最 终 容 量 。 因 此 ， 需 要 小 心地 选择 硬件 ， 并 对 硬件 和 操作 系统 进行 合适 的 配 
E. Ain, ELTERE MO 密集 型 的 ， 一 种 方法 是 设计 应 用 程序 使 得 最 大 限度 地 减少 
MySQL 的 IO 操作 。 然 而 ， 更 聪明 的 方式 通常 是 升级 IO 子 系统 ， 安 装 更 多 的 内 存 ， 或 
重新 配置 现 有 的 磁盘 。 


硬件 的 更 新 换代 非常 迅速 ， 所 以 本 章 有 关 特 定 产品 或 组 件 的 内 容 可 能 将 很 快 变 得 过 时 。 
像 往常 一 样 ， 我 们 的 目标 是 帮助 提升 对 这 些 概念 的 理解 ， 这 样 对 于 即使 没有 直接 覆盖 到 
的 知识 也 可 以 举一反三 。 这 里 我 们 将 通过 现 有 的 硬件 来 阐明 我 们 的 观点 。 


9.1 什么 限制 了 MySQL 的 性 能 


许多 不 同 的 硬件 都 可 以 影响 MySQL 的 性 能 ， 但 我 们 认为 最 常见 的 两 个 瓶颈 是 CPU F I 
O 资源 。 当 数据 可 以 放 在 内 存 中 或 者 可 以 从 磁盘 中 以 足够 快 的 速度 读 取 时 ，CPU 可 能 
出 现 瓶 颈 。 把 大 量 的 数据 集 完 全 放 到 大 容量 的 内 存 中 ， 以 现在 的 硬件 条 件 完全 是 可 行 
Ay, 


另 一 方面 ，I/O 瓶颈 ， 一 般 发 生 在 工作 所 需 的 数据 远 远 超 过 有 效 内 存 容 量 的 时 候 。 如 果 
应 用 程序 是 分 布 在 网 络 上 的 ， 或 者 如 果 有 大 量 的 查询 和 低 延 迟 的 要 求 ， 瓶 颈 可 能 转移 到 
网 络 上 ， 而 不 再 是 磁盘 IO 


1: 普通 PC Server 也 能 配 到 192GB A4, ——i## iz 
注 2: 网 络 吞 吐 也 是 一 种 IO。 一 一 译 者 注 


377 


第 3 章 中 提 及 的 技巧 可 以 帮助 找到 系统 的 限制 因素 ， 但 即使 你 认为 已 经 找到 了 瓶颈 ， 也 
应 该 透 过 表象 去 看 更 深层 次 的 问题 。 某 一 方面 的 缺陷 常常 会 将 压力 施加 在 另 一 个 子 系统 ， 
导致 这 个 子 系统 出 问题 。 例 如 ， 若 没有 足够 的 内 存 ，MySQL 可 能 必须 刷 出 缓存 来 腾 出 
空间 给 需要 的 数据 一 一 然后 ， 过 了 一 小 会 ， 再 读 回 刚刚 刷新 的 数据 ( 读 取 和 写 入 操作 都 
可 能 发 生 这 个 问题 )。 本 来 是 内 存 不 足 ， 却 导致 出 现 了 IO 容量 不 足 。 当 找到 一 个 限制 系 
统 性 能 的 因素 时 ， 应 该 问 问 自己 ,“ 是 这 个 部 分 本 身 的 问题 ， 还 是 系统 中 其 他 不 合理 的 
压力 转移 到 这 里 所 导致 的 ? ”在 第 3 章 的 诊断 案例 中 也 有 讨论 到 这 个 问题 。 


还 有 另外 一 个 例子 : 内 存 总 线 的 瓶颈 也 可 能 表现 为 CPU 问题 。 事 实 上 ， 我 们 说 一 个 应 用 
程序 有 “CPU 瓶颈 ”或 者 是 “CPU 密集 型 ， 真 正 的 意思 应 该 是 计算 的 瓶颈 。 接 下 来 将 
深入 探讨 这 个 问题 。 


9.2 如 何 为 MySQL 选择 CPU 
在 升级 当前 硬件 或 购买 新 的 硬件 时 ， 应 该 考虑 下 工作 负载 是 不 是 CPU 密集 型 。 


可 以 通过 检查 CPU 利用 率 来 判断 是 否 是 CPU 密集 型 的 工作 负载 ， 但 是 仅 看 CPU 整体 的 
负载 是 不 合理 的 ， 还 需要 看 看 CPU 使 用 率 和 大 多 数 重 要 的 查询 的 IO 之 间 的 平衡 ， 并 注 
意 CPU 负载 是 否 分 配 均匀 。 本 章 稍 后 讨论 的 工具 可 以 用 来 和 弄 清楚 是 什么 限制 了 服务 器 的 
性 能 。 


9.2.1 哪个 更 好 : 更 快 的 CPU 还 是 更 多 的 CPU 
当 遇 到 CPU 密集 型 的 工作 时 ，MySQL 通常 可 以 从 更 快 的 CPU Hiki (相对 更 多 的 
CPU). 


但 这 不 是 绝对 的 ， 因 为 还 依赖 于 负载 情况 和 CPU 数量 。 更 古老 的 MySQL 版 本 在 多 CPU 
上 有 扩展 性 问题 ， 即 使 新 版 本 也 不 能 对 单个 查询 并 发 利用 多 个 CPU。 因 此 ，CPU 速度 限 
制 了 每 个 CPU 密集 型 查询 的 响应 时 间 。 


当 我 们 讨论 CPU 的 时 候 ， 为 保证 本 文 易于 阅读 ， 对 某 些 术语 将 不 会 做 严格 的 定义 。 现 
在 一 般 的 服务 器 通常 都 有 多 个 插 槽 (Socket)， 每 个 插 模 上 都 可 以 插 一 个 有 多 个 核心 的 
CPU 〈 有 独立 的 执行 单元 ) ， 并 且 每 个 核心 可 能 有 多 个 “硬件 线程 。 这 些 复杂 的 架构 需 
要 有 点 耐心 去 了 解 ， 并 且 我 们 不 会 总 是 明确 地 区 分 它们 。 不 过 ， 在 一 般 情况 下 ， 当 谈 到 
CPU 速度 的 时 候 ， 谈 论 的 其 实 是 执行 单元 的 速度 ， 当 提 到 的 CPU 数量 时 ， 指 的 通常 是 
在 操作 系统 上 看 到 的 数量 ， 尽 管 这 可 能 是 独立 的 执行 单元 数量 的 多 倍 “"。 


注 3: 超 线程 技术 。 一 一 译 者 注 
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这 几 年 CPU 在 各 个 方面 都 有 了 很 大 的 提升 。 例 如 ,今天 的 Intel CPU 速度 远 远 超过 前 几 代 ， 
这 得 益 于 像 直接 内 存 连 接 (directly attached memory) 技术 以 及 PCIe 卡 之 类 的 设备 互联 

上 的 改善 等 。 这 些 改进 对 于 存储 设备 尤其 有 效 ， 例 如 Fusion-io 和 Virident 的 PCIe NF 

驱动 絮 。 


超 线程 的 效果 相 比 以 前 也 要 好 得 多 ， 现 在 操作 系统 也 更 了 解 如 何 更 好 地 使 用 超 线程 。 而 
以 前 版 本 的 操作 系统 无 法 识别 两 个 虚拟 处 理 器 实际 上 是 在 同一 芯片 上 ， 认 为 它们 是 独立 
的 ， 于 是 会 把 任务 安排 在 两 个 实际 上 是 相同 物理 执行 单元 上 的 虚拟 处 理 器 。 实 际 上 单个 
执行 单元 并 不 是 真 的 可 以 在 同一 时 间 运 行 两 个 进程 ， 所 以 这 样 做 会 发 生 冲 突 和 争夺 资源 。 
而 同时 其 他 CPU 却 可 能 在 闲置 ， 从 而 浪费 资源 。 操 作 系 统 需 要 能 感知 超 线 程 ， 因 为 它 必 
须知 道 什 么 时 候 执 行 单元 实际 上 是 闲置 的 ， 然 后 切换 相应 的 任务 去 执行 。 这 个 问题 之 前 
常见 的 原因 是 在 等 待 内 存 总 线 ， 可 能 花费 需要 高 达 一 百 个 CPU 周期 ， 这 已 经 类 似 于 一 个 
轻 量 级 的 IO 等 待 。 新 的 操作 系统 在 这 方面 有 了 很 大 的 改善 。 超 线程 现在 已 经 工作 得 很 好 。 
过 去 ， 我 们 时 常 提醒 人 们 禁用 它 ， 但 现在 已 经 不 需要 这 样 做 了 。 


这 就 是 说 ， 现 在 可 以 得 到 大 量 的 快速 的 CPU 一 一 比 本 书 的 第 2 版 出 版 的 时 候 要 多 得 多 。 
所 以 多 和 快 哪 个 更 重要 ? 一 般 来 说 两 个 都 想 要 。 从 广义 上 来 说 ， 调 优 服务 器 可 能 有 如 下 
两 个 目标 : 


低 廷 时 (快速 响应 ) 
要 做 到 这 一 点 ， 需 要 高 速 CPU， 因 为 每 个 查询 只 能 使 用 一 个 CPU. 

高 吞吐 
如 果 能 同时 运行 很 多 查询 语句 , 则 可 以 从 多 个 CPU 处 理 查询 中 受益 。 然 而 ,在 实践 中 ， 
还 要 取决 于 具体 情况 。 因 为 MySQL 还 不 能 在 多 个 CPU 中 完美 地 扩展 ， 能 用 多 少 
个 CPU 还 是 有 极限 的 。 在 旧版 本 的 MySQL 中 (MySQL 5.1 以 后 的 版 本 已 经 有 一 些 
提升 )， 这 个 限制 非常 严重 。 在 新 的 版 本 中 ， 则 可 以 放心 地 扩展 到 16 或 24 个 CPU， 
或 者 更 多 ， 取 决 于 使 用 的 是 哪个 版 本 (Percona 往往 在 这 方面 略 占 优 势 )。 


如 果 有 多 路 CPU， 并 且 没 有 并 发 执行 查询 语句 ，MySQL 依然 可 以 利用 额外 的 CPU 为 后 
台 任务 (例如 清理 InnoDB 缓冲 、 网 络 操作 ， 等 等 ) 服务 。 然 而 ， 这 些 任务 通常 比 执行 
查询 语句 更 加 轻 量化 。 


MySQL 复制 (将 在 下 一 章 中 讨论 ) 也 能 在 高 速 CPU 下 工作 得 非常 好 ， 而 多 CPU 对 复制 
的 帮助 却 不 大 。 如 果 工 作 负 载 是 CPU 密集 型 ， 主 库 上 的 并 发 任务 传递 到 备 库 以 后 会 被 简 
化 为 串 行 任 务 ， 这 样 即使 备 库 硬 件 比 主 库 好 ， 也 可 能 无 法 保持 跟 主 库 之 间 的 同步 。 也 就 
是 说 ， 备 库 的 瓶颈 通常 是 IO FAR, MAE CPU, 


如 果 有 一 个 CPU 密集 型 的 工作 负载 ， 考 虑 是 需要 更 快 的 CPU 还 是 更 多 CPU 的 另外 一 个 
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因素 是 查询 语句 实际 在 做 什么 。 在 硬件 层面 ， 一 个 查询 可 以 在 执行 或 等 待 。 处 于 等 待 状 
态 常见 的 原因 是 在 运行 队列 中 等 待 〈 进 程 已 经 是 可 运行 状态 ， 但 所 有 的 CPU IL), = 
待 门 锁 (Latch) 或 锁 (Lock) 、 等 待 磁盘 或 网 络 。 那 么 你 期 望 查询 是 等 待 什么 呢 ? wR 
等 待 门 锁 或 锁 ， 通 常 需要 更 快 的 CPU ; 如 果 在 运行 队列 中 等 待 ， 那 么 更 多 或 者 更 快 的 
CPU 都 可 能 有 帮助 。( 也 可 能 有 例外 ， 人 例如， 查询 等 待 InnoDB HERKKI Mutex, B 
到 IO 完成 前 都 不 会 释放 一 一 这 可 能 表明 需要 更 多 的 IO 容量 )。 


这 就 是 说 ，MySQL 在 某 些 工 作 负 载 下 可 以 有 效 地 利用 很 多 CPU。 例 如 ， 假 设 有 很 
多 连接 查询 的 是 不 同 表 (假设 这 些 查 询 不 会 造成 表 锁 的 竞争 ， 实 际 上 对 MyISAM 和 
MEMORY 表 可 能 会 有 问题 ) ， 并 且 服 务 器 的 总 吞吐 量 比 任何 单个 查询 的 响应 时 间 都 更 重 
要 。 吞 吐 量 在 这 种 情况 下 可 以 非常 高 ， 因 为 线程 可 以 同时 运行 而 互 不 争 用 。 


再 次 说 明 ， 在 理论 上 这 可 能 更 好 地 工作 : 不 管 查询 是 读 取 不 同 的 表 还 是 相同 的 表 ， 
InnoDB 都 会 有 一 些 全 局 共享 的 数据 结构 ， 而 MyISAM 在 每 个 缓冲 区 都 有 全 局 锁 。 而 
且 不 仅仅 是 存储 引擎 ， 服 务 器 层 也 有 全 局 锁 。 以 前 InnoDB 承担 了 所 有 的 骂 名 ,但 最 近 
做 了 一 些 改进 后 ， 暴 露 了 服务 器 层 中 的 其 他 瓶颈 。 例 如 臭名 昭著 的 LOCK_open 互 斥 量 
(Mutex), Æ MySQL 5.1 和 更 早 版 本 中 可 能 就 是 个 大 问题 ， 另 外 还 有 其 他 一 些 服务 器 级 
别 的 互 斥 量 〈 例 如 查询 缓存 )。 


通常 可 以 通过 堆栈 跟踪 来 诊断 这 些 类 型 的 竞争 问题 ， 例 如 Percona Toolkit 中 的 pt-pmp I 
具 。 如 果 遇 到 这 样 的 问题 ， 可 能 需要 改变 服务 器 的 配置 ， 禁 用 或 改变 引起 问题 的 组 件 ， 
进行 数据 分 片 《Sharding) ， 或 者 通过 某 种 方式 改变 做 事 的 方法 。 这 里 无 法 列举 所 有 的 问 
题 和 相应 的 解决 方案 ， 但 是 一 旦 有 一 个 确定 的 诊断 ， 答 案 通 常 是 显而易见 的 。 大 部 分 不 
幸 遇 到 的 问题 都 是 边缘 场景 ， 最 常见 的 问题 随 着 时 间 的 推移 都 在 服务 器 上 被 修复 了 。 


9.2.2 CPU 架构 
可 能 99% 以 上 的 MySQL 实例 (不 含 答 入 式 使 用 ) 都 运行 在 Intel 或 者 AMD 心 片 的 x86 
架构 下 。 本 书 中 我 们 基本 都 是 针对 这 种 情况 。 


64 位 架构 现在 都 是 默认 的 了 ，32 位 CPU 已 经 很 难 买 到 了 。 MySQL 64 位 架构 上 工 
作 良 好 ， 尽 管 有 些 事 暂 时 不 能 利用 64 位 架构 来 做 。 因 此 ， 如 果 使 用 的 是 较 老 旧版 本 的 
MySQL, 在 64 位 服务 器 上 可 能 要 小 心 。 例 如 ， 在 MySQL 5.0 发 布 的 早期 时 候 ， 每 个 
MyISAM 键 缓冲 区 被 限制 为 4 GB， 由 一 个 32 位 整数 负责 寻 址 。( 可 以 创建 多 个 键 缓冲 - 
区 来 解决 这 个 问题 。) 


确保 在 64 位 硬件 上 使 用 64 位 操作 系统 ! 最 近 这 种 情况 已 经 不 太 常 见 了 ， 但 以 前 经 常 可 
以 遇 到 ， 大 多 数 主机 托管 提供 商 暂时 还 是 在 服务 器 上 安装 32 位 操作 系统 ， 即 使 是 64 位 
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CPU, 32 位 操作 系统 意味 着 不 能 使 用 大 量 的 内 存 : PERE 32 位 系统 可 以 支持 大 量 的 
内 存 ， 但 不 能 像 64 位 系统 一 样 有 效 地 利用 ， 并 且 在 32 位 系统 上 ， 任 何 一 个 单独 的 进程 
都 不 能 寻 址 4 GB 以 上 的 内 存 。 


9.2.3 扩展 到 多 个 CPU 和 核心 
多 CPU 在 联机 事务 处 理 (OLTP) 系统 的 场景 中 非常 有 用 。 这 些 系统 通常 执行 许多 小 的 
操作 ， 并 且 是 从 多 个 连接 发 起 请 求 ， 因 此 可 以 在 多 个 CPU 上 运行 。 在 这 样 的 环境 中 ， 并 
发 可 能 成 为 瓶颈 。 大 多 数 Web 应 用 程序 都 属于 这 一 类 。 


OLTP 服务 器 一 般 使 用 InnoDB ,尽管 它 在 多 CPU 的 环境 中 还 存在 一 些 未 解决 的 并 发 问题 。 
然而 ， 不 只 是 InnoDB 可 能 成 为 瓶颈 : 任何 共享 资源 都 是 潜在 的 竞争 点 。InnoDB 之 所 以 
获得 大 量 关 注 是 因为 它 是 高 并 发 环境 下 最 常见 的 存储 引擎 ， 但 MyISAM 在 大 压力 时 的 表 
现 也 不 好 ， 即 使 不 修改 任何 数据 只 是 读 取 数 据 也 是 如 此 。 许 多 并 发 瓶颈 ， 如 InnoDB 的 
行 级 锁 和 MyISAM 的 表 锁 ， 没 有 办 法 优化 一 一 除了 尽 可 能 快 地 处 理 任务 之 外 ， 没 有 别 的 
办 法 解决 ， 这 样 ， 锁 就 可 以 尽快 分 配给 等 待 的 任务 。 如 果 一 个 锁 是 造成 它们 (其 他 任务 ) 
都 在 等 待 的 原因 ， 那 么 不 管 有 多 少 CPU 都 一 样 。 因 此 ， 即 使 是 一 些 高 并 发 工作 负载 ， 也 
可 以 从 更 快 的 CPU 中 受益 。 
实际 上 有 两 种 类 型 的 数据 库 并 发 问题 ， 需 要 不 同 的 方法 来 解决 ， 如 下 所 示 。 
逻辑 并 发 问题 
应 用 程序 可 以 看 到 资源 的 竞争 ,如 表 或 行 锁 争 用 。 这 些 问题 通常 需要 好 的 策略 来 解决 ， 
如 改变 应 用 程序 、 使 用 不 同 的 存储 引擎 、 改 变 服务 器 的 配置 ， 或 使 用 不 同 的 锁定 提 
示 或 事务 隔离 级 别 。 
内 部 并 发 问题 
比如 信号 量 、 访 问 InnoDB 缓冲 池 页 面 的 资源 争 用 ， 等 等 。 可 以 尝试 通过 改变 服务 
器 的 设置 、 改 变 操作 系统 ， 或 使 用 不 同 的 硬件 解决 这 些 问 题 ， 但 通常 只 能 缓解 而 无 
法 彻底 消灭 。 在 某 些 情况 下 ， 使 用 不 同 的 存储 引擎 或 给 存储 引擎 打 补 丁 ， 可 以 帮助 
缓解 这 些 问题 。 


MySQL 的 “扩展 模式 ”是 指 它 可 以 有 效 利用 的 CPU 数量 ， 以 及 在 压力 不 断 增 长 的 情 
况 下 如 何 扩展 ， 这 同时 取决 于 工作 负载 和 系统 架构 。 通 过 “系统 架构 ”的 手段 是 指 通 
过 调整 操作 系统 和 硬件 ， 而 不 是 通过 优化 使 用 MySQL 的 应 用 程序 。CPU 架构 (RISC, 
CISC、 流 水 线 深度 等 )、CPU 型 号 和 操作 系统 都 影响 MySQL 的 扩展 模式 。 这 也 是 为 什 
么 说 基准 测试 是 非常 重要 的 : 一 些 系统 可 以 在 不 断 增加 的 并 发 下 依然 运行 得 很 好 ， 而 另 
一 些 的 表现 则 精 糕 得 多 。 
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有 些 系统 在 更 多 的 处 理 器 下 甚至 可 能 降低 整体 性 能 。 这 是 相当 普遍 的 情况 ， 我 们 了 解 到 
许多 人 试图 升级 到 有 多 个 CPU 的 系统 ， 最 后 只 能 被 迫 恢 复 到 旧 系 统 (RABE MySQL 进 
程 到 其 中 某 些 核心 ) ， 因 为 这 种 升级 反而 降低 了 性 能 。 在 MySQL 5.0 时 代 ，Google 的 补 
本 和 Percona Server 出 现 之 前 ， 能 有 效 利 用 的 CPU 核 数 是 4 核 ， 但 是 现在 甚至 可 以 看 到 
操作 系统 报告 多 达 80 个 “CPU "的 服务 器 。 如 果 规 划一 个 大 的 升级 , 必须 要 同时 考虑 硬件 、 
服务 器 版 本 和 工作 负载 。 


某 些 MySQL 扩展 性 瓶颈 在 服务 器 层 ， 而 其 他 一 些 在 存储 引擎 层 。 存 储 引 擎 是 怎么 设计 
的 至 关 重要 ， 有 时 更 换 到 一 个 不 同 的 引擎 就 可 以 从 多 处 理 器 上 获得 更 多 效果 。 


我 们 看 到 在 世纪 之 交 围 绕 处 理 器 速度 的 战争 在 一 定 程度 上 已 经 平息 ，CPU 厂商 更 多 地 专 
EF BY CPU 和 多 线程 的 变化 。CPU 设计 的 未 来 很 可 能 是 数 百 个 处 理 器 核心 ， 四 核心 
和 六 核心 的 CPU 在 今天 是 很 常见 的 。 不 同 厂 商 的 内 部 架构 差异 很 大 ,不 可 能 概括 出 线程 、 
CPU 和 内 核 之 间 的 相互 作用 。 内 存 和 总 线 如 何 设计 也 是 非常 重要 的 。 归 根 结 底 ， 多 个 内 
核 和 多 个 物理 CPU 哪个 更 好 ， 这 是 由 硬件 体系 结构 决定 的 。 


现代 CPU 的 另外 两 个 复杂 之 处 也 值得 提 一 下 。 首 先是 频率 调整 。 这 是 一 种 电源 管理 技术 ， 
可 以 根据 CPU 上 的 压力 而 动态 地 改变 CPU 的 时 钟 速度 。 问 题 是 ， 它 有 时 不 能 很 好 地 处 
理 间 欣 性 突 发 的 短 查 询 的 情况 ， 因 为 操作 系统 可 能 需要 一 段 时 间 来 决定 CPU 的 时 钟 是 否 
应 该 变化 。 结 果 ， 查 询 可 能 会 有 一 段 时 间 速 度 较 慢 ， 并 且 响 应 时 间 增 加 了 。 频 率 调整 可 
能 使 间歇 性 的 工作 负载 性 能 低下 ， 但 可 能 更 重要 的 是 ， 它 会 导致 性 能 波动 。 


第 二 个 复杂 之 处 是 boost 技术 ， 这 个 技术 改变 了 我 们 对 CPU 模式 的 看 法 。 我 们 曾经 以 为 
四 核 2GHz CPU 有 四 个 同样 强大 的 核心 ， 不 管 其 中 有 些 是 闲置 或 非 闲置 。 因 此 ， 一 个 完 
美的 可 扩展 系统 ， 当 它 使 用 所 有 四 个 内 核 的 时 候 ， 可 以 预计 得 到 四 倍 的 提升 。 但 是 现在 
已 经 不 是 这 样 了 ， 因 为 当 系 统 只 使 用 一 个 核心 上 时， 处理 器 会 运行 在 更 高 的 时 钟 速度 上 ， 
例如 3GHz。 这 给 很 多 的 规划 容量 和 可 扩展 性 建 模 的 工具 出 了 一 个 难题 ， 因 为 系统 性 能 
表现 不 再 是 线性 的 变化 了 。 这 也 意味 着 ,“ 空 CPU” 并 不 代表 相同 规模 的 资源 浪费 ， 
如 果 有 一 台 服 务 器 上 只 运行 了 备 库 的 复制 ， 而 复制 执行 是 单线 程 的 ， 所 以 有 三 个 CPU 是 
空 亲 的， 因此 认为 可 以 利用 这 些 CPU 资源 执行 其 他 任务 而 不 影响 复制 ， 可 能 就 想 错 了 。 


4éz= ~ A 
9.3 平衡 内 存 和 磁盘 资源 
配置 大 量 内 存 最 大 的 原因 其 实 不 是 因为 可 以 在 内 存 中 保存 大 量 数据 : 最 终 目 的 是 避免 磁 
Aro, HAKA I/O 比 在 内 存 中 访问 数据 要 慢 得 多 。 关 键 是 要 平衡 内 存 和 磁盘 的 大 小 、 
速度 、 成 本 和 其 他 因素 ,以 便 为 工作 负载 提供 高 性 能 的 表现 。 在 讨论 如 何 做 到 这 一 点 之 前 ， 
暂时 先 回 到 基础 知识 上 来 。 
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计算 机 包含 一 个 金字 塔 型 的 缓存 体系 , 更 小 、 WR, 更 昂贵 的 缓存 在 顶端 , 如 图 9-1 所 示 。 





图 9-1: 缓存 层级 


在 这 个 高 速 缓存 层次 中 ， 最 好 是 利用 各 级 缓存 来 存放 “ 热 操 ”数据 ， 以 获得 更 快 的 访问 
速度 ， 通 常 使 用 一 些 启发 式 的 方法 ， 例 如 “最 近 被 使 用 的 数据 可 能 很 快 再 次 被 使 用 ”以 
及 “ 相 邻 的 数据 可 能 很 快 需要 使 用 "， 这 些 算 法 非常 有 效 ， 因 为 它们 参考 了 空间 和 时 间 
的 局 部 性 原理 。 


从 程序 员 的 视角 来 看 ，CPU 寄存 器 和 高 速 缓存 是 透明 的 ， 并 且 与 硬件 架构 相关 。 管 理 它 
们 是 编译 器 和 CPU 的 工作 。 然 而 ， 程 序 员 会 有 意识 地 注意 到 内 存 和 硬盘 的 不 同 ， 并 且 在 
程序 中 通常 区 分 使 用 它们 六 和。 


在 数据 库 服务 器 上 尤其 明显 ， 其 行为 往往 非常 符合 我 们 刚才 提 到 的 预测 算法 所 做 的 预测 。 
设计 良好 的 数据 库 缓存 (如 InnoDB 缓冲 池 )， 其 效率 通常 超过 操作 系统 的 缓存 ， 因 为 操 
作 系 统 缓 存 是 为 通用 任务 设计 的 。 数 据 库 缓存 更 了 解数 据 库 存 取 数 据 的 需求 ， 它 包含 特 
殊 用 途 的 逻辑 (例如 写 入 顺序 ) 以 帮助 满足 这 些 需 求 。 此 外 ， 系 统 调用 不 需要 访问 数据 
库 中 的 缓存 数据 。 


这 些 专用 的 缓存 需求 就 是 为 什么 必须 平衡 缓存 层次 结构 以 适应 数据 库 服务 器 特定 的 访问 
模式 的 原因 。 因 为 寄存 器 和 芯片 上 的 高 速 缓存 不 是 用 户 可 配置 的 ， 内 存 和 存储 是 唯一 可 
以 改变 的 东西 。 


9.3.1 随机 MO 和 顺序 MO 


数据 库 服 务 器 同时 使 用 顺序 和 随机 IO ， 随 机 IO 从 缓存 中 受益 最 多 。 想 像 有 一 个 典型 的 
混合 工作 负载 ， 均 衡 地 包含 单行 查找 与 多 行 范 围 扫描 ， 可 以 说 服 自 己 相 信 这 个 说 法 。 典 
型 的 情况 是 “热点 ”数据 随机 分 布 。 因 此 ， 缓 存 这 些 数 据 将 有 助 于 避免 郧 呐 的 磁盘 寻 道 。 
相反 ， 顺 序 读 取 一 般 只 需要 扫描 一 次 数据 ， 所 以 缓存 对 它 是 没 用 的 ， 除 非 能 完全 放 在 内 
注 4: 然而， 程序 可 能 依赖 大 量 在 操作 系统 内 存 中 缓存 的 数据 ， 对 程序 来 说 ， 概 念 上 属于 “在 磁盘 上 ” 


的 数据 。 例 如 ，MyISAM 就 是 这 么 做 的 ， 它 把 数据 文件 放 在 磁盘 上 ， 并 通过 操作 系统 缓存 磁盘 上 
的 数据 ， 使 其 访问 速度 更 快 。 
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存 中 缓存 起 来 。 
顺序 读 取 不 能 从 缓存 中 受益 的 另 一 个 原因 是 它们 比 随机 读 快 。 这 有 以 下 两 个 原因 : 


顺序 I/O 比 随 机 IO 快 。 
顺序 操作 的 执行 速度 比 随 机 操作 快 ， 无 论 是 在 内 存 还 是 磁盘 上 。 假 设 磁盘 每 秒 可 以 
做 100 个 随机 I/O 操作 ， 并 且 可 以 完成 每 秒 SOMB 的 顺序 读 取 (这 大 概 是 消费 级 磁 
盘 现 在 能 达到 的 水 平 )。 如 果 每 行 100 字 节 ， 随 机 读 每 秒 可 以 读 100 行 ， 相 比 之 下 顺 
序 读 可 以 每 秒 读 500 000 行 一 一 是 随机 读 的 5 000 倍 ， 或 几 个 数量 级 的 差异 。 因 此 ， 
在 这 种 情况 下 随机 IO 可 以 从 缓存 中 获得 很 多 好 处 。 
顺序 访问 内 存 行 的 速度 也 快 于 随机 访问 。 现 在 的 内 存世 上 请 通 党 每 秒 可 以 随机 访问 约 
250 000 次 100 字 节 的 行 ， 或 者 每 秒 500 万 次 的 顺序 访问 。 请 注意 ， 内 存 随机 访问 
速度 比 磁盘 随机 访问 快 了 2 500 倍 ， 而 内 存 中 顺序 访问 只 有 磁盘 10 倍 的 速度 。 

存储 引 营 执行 顺序 读 比 随机 读 快 。 
一 个 随机 读 一 般 意味 着 存储 引擎 必须 执行 索引 操作 。( 这 个 规则 也 有 例外 ， 但 对 
InnoDB 和 MyISAM 都 是 对 的 )。 通 常 需要 通过 B 树 的 数据 结构 查找 ， 并 且 和 其 他 
值 比较 。 相 反 ， 连 续 读 取 一 般 需 要 遍历 一 个 简单 的 数据 结构 ， 例 如 链表 。 这 样 就 少 
了 很 多 工作 ， 反 复 这 样 操作 ， 连 续 读 取 的 速度 就 比 随机 读 取 要 快 了 。 


最 后 ， 随 机 读 取 通常 只 要 查找 特定 的 行 ， 但 不 仅仅 只 读 取 一 行 一 一 而 是 要 读 取 一 整 页 的 
数据 ， 其 中 大 部 分 是 不 需要 的 。 这 浪费 了 很 多 工作 。 另 一 方面 ， 顺 序 读 取 数 据 ， 通 常 发 
生 在 想 要 的 页 面 上 的 所 有 行 ， 所 以 更 符合 成 本 效益 。 


综 上 所 述 , 通过 缓存 顺序 读 取 可 以 布 省 一 些 工作 ,但 缓存 随机 读 取 可 以 市 省 更 多 的 工作 ，。 
换 名 话说， 如 果 能 负担 得 起 ， 增 加 内 存 是 解决 随机 IO 读 取 问 题 最 好 的 办 法 。 


9.3.2 BF, RMS 

如 果 有 足够 的 内 存 ， 就 完全 可 以 避免 磁盘 读 取 请 求 。 如 果 所 有 的 数据 文件 都 可 以 放 在 内 
存 中 ,一 旦 服务 器 缓存 “ 热 ” 起 来 了 ， 所 有 的 读 操作 都 会 在 缓存 命中 。 虽 然 还 是 会 有 过 
辑 读 取 ,不 过 物理 读 取 就 没有 了 。 但 写 入 是 不 同 的 问题 。 写 入 可 以 像 读 一 样 在 内 存 中 完成 ， 
但 迟早 要 被 写 入 到 磁盘 ， 所 以 它 是 需要 持久 化 的 。 换 句 话 说， 缓存 可 延缓 写 和 信 ， 但 不 能 
像 消 除 读 取 一 样 消除 写 入 。 


事实 上 , 除了 允许 写 入 被 延迟 , 缓存 可 以 允许 它们 被 集中 操作 , 主要 通 以 下 两 个 重要 途径 : 


多 次 写 入 ,一 次 刷新 
一 片 数 据 可 以 在 内 存 中 改变 很 多 次 ， 而 不 需要 把 所 有 的 新 值 写 到 磁盘 。 当 数据 最 终 
被 刷新 到 磁盘 后 ， 最 后 一 次 物理 写 之 前 发 生 的 修改 都 被 持久 化 了 。 例 如 ， 许 多 语句 
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可 以 更 新 内 存 中 的 计数 器 。 如 果 计 数 器 递增 100 次 ， 然 后 写 人 到 磁盘 ，100 次 修改 
. 就 被 合并 为 一 次 写 。 

IO 合并 
许多 不 同 部 分 的 数据 可 以 在 内 存 中 修改 ， 并 且 这 些 修改 可 以 合并 在 一 起 ， 通 过 一 次 
磁盘 操作 完成 物理 写 人 。 


这 就 是 为 什么 许多 交易 系统 使 用 预 写 日 志 (WAL) 策略 。 预 写 日 志 采 用 在 内 存 中 变更 页 
面 ， 而 不 马上 刷新 到 磁盘 上 的 策略 ， 因 为 刷新 磁盘 通常 需要 随机 IJO， 这 非常 慢 。 相 反 ， 
如 果 把 变化 的 记录 写 到 一 个 连续 的 日 志文 件 ， 这 就 很 快 了 。 后 台 线 程 可 以 稍 后 把 修改 的 
页 面 刷新 到 磁盘 并 在 刷新 过 程 中 优化 写 操作 。 


写 入 从 缓冲 中 大 大 受益 ， 因 为 它 把 随机 IO 更 多 地 转换 到 连续 IO。 蜡 步 (缓冲 ) 写 通 常 
是 由 操作 系统 批量 处 理 ， 使 它们 能 以 更 优化 的 方式 刷新 到 磁盘 。 同 步 (无 缓冲 ) 写 必须 
在 写 入 到 磁盘 之 后 才能 完成 。 这 就 是 为 什么 它们 受益 于 RAID 控制 器 中 电池 供电 的 回 写 
(Write-Back) 高 速 缓存 (我 们 稍 后 讨论 RAID). 


9.3.3 工作 集 是 什么 


每 个 应 用 程序 都 有 一 个 数据 的 “工作 集 ” 一 一 就 是 做 这 个 工作 确实 需要 用 到 的 数据 。 很 
多 数据 库 都 有 大 量 不 在 工作 集 内 的 数据 。 


可 以 把 数据 库 想 象 为 有 抽 层 的 办 公 桌 。 工 作 集 就 是 放 在 桌面 上 的 完成 工作 必须 使 用 的 文 
件 。 桌 面 是 这 个 比喻 中 的 主 内 存 ， 而 抽 居 就 是 硬盘 。 


就 像 完 成 工作 不 需要 办 公 桌 里 每 一 张 纸 一 样 ， 也 不 需要 把 整个 数据 库 装 到 内 存 中 来 获得 
最 佳 性 能 一 一 只 需要 工作 集 就 可 以 。 


工作 集 大 小 的 不 同 取决 于 应 用 程序 。 对 于 某 些 应 用 程序 ， 工 作 集 可 能 是 总 数据 大 小 的 
1%， 而 对 于 其 他 应 用 ， 也 可 能 接近 100%。 当 工作 集 不 能 全 放 在 内 存 中 时 ， 数 据 库 服务 
器 必须 在 磁盘 和 内 存 之 间 交 换 数据 ， 以 完成 工作 。 这 就 是 为 什么 内 存 不 足 可 能 看 起 来 却 
像 /0 问题 。 有 时 没有 办 法 把 整个 工作 集 的 数据 放 在 内 存 中 ， 并 且 有 时 也 并 不 真 的 想 这 
么 做 (例如 ， 车 应 用 需要 大 量 的 顺序 1O) 。 工 作 集 能 否 完全 放 在 内 存 中 ， 对 应 用 程序 体 
系 结构 的 设计 会 产生 很 大 的 影响 。 





工作 集 可 以 定义 为 基于 时 间 的 百分比 。 例 如 ， 一 小 时 的 工作 集 可 能 是 一 个 小 时 内 数据 库 
使 用 的 95% 的 页 面 , 除了 5% 的 最 不 常用 的 页 面 。 百 分 比 是 考虑 这 个 问题 最 有 用 的 方式 ， 
因为 每 小 时 可 能 需要 访问 的 数据 只 有 1%， 但 超过 24 小 时 ， 需 要 访问 的 数据 可 能 会 增加 
到 整个 数据 库 中 20% 的 不 同 页 面 。 根 据 需 要 被 缓存 起 来 的 数据 量 多 少 ， 来 思考 工作 和 集会 
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更 加 直观 ， 缓 存 的 数据 越 多 ， 工 作 负 载 就 越 可 能 成 为 CPU 密集 型 。 如 采 不 能 缓存 足够 的 
数据 ， 工 作 集 就 不 能 完全 放 在 内 存 中 。 


应 该 依据 最 常用 的 页 面 集 来 考虑 工作 集 ， 而 不 是 最 频繁 读 写 的 页 面 集 。 这 意味 着 ， 确 定 
工作 集 需 要 在 应 用 程序 内 有 测量 的 模块 ， 而 不 能 仅仅 看 外 部 资源 的 利用 ， 例 如 LO 访问 ， 
因为 页 面 的 IO 操作 跟 逻 辑 访问 页 面 不 是 同一 回 事 。 例 如 ，MySQL 可 能 把 一 个 页 面 读 入 
内 存 ， 然 后 访问 它 数 百 万 次 ， 但 如 果 查 看 strace， 只 会 看 到 一 个 VOR. ZEL 
作 和 集 所 需 的 检测 模块 ， 最 大 的 原因 是 没有 对 这 个 主题 有 较 多 的 研究 。 


工作 集 包 括 数据 和 索引 ， 所 以 应 该 采用 缓存 单位 来 计数 。 一 个 缓存 单位 是 存储 引擎 工作 
的 数据 最 小 单位 。 


不 同 存储 引擎 的 缓存 单位 大 小 是 不 一 样 的 ， 因 此 也 使 得 工作 集 的 大 小 不 一 样 。 例 如 ， 
InnoDB 在 默认 情况 下 是 16 KB 的 页 。 如 果 InnoDB 做 一 个 单行 查找 需要 读 取 磁盘 RE 
要 把 包含 该 行 的 整个 页 面 读 入 缓冲 池 进 行 缓 存 ， 这 会 引起 一 些 缓存 的 浪费 。 假 设 要 随机 
访问 100 字 节 的 行 。InnoDB 将 用 掉 缓冲 池 中 很 多 额外 的 内 存 来 缓存 这 些 行 ， 因 为 每 一 
行 都 必须 读 取 和 缓存 一 个 完整 的 16KB 页 面 。 因 为 工作 集 也 包括 索引 ，InnoDB 也 会 读 取 
并 缓存 查找 行 所 需 的 索引 树 的 一 部 分 。InnoDB 的 索引 页 大 小 也 是 16 KB， 这 意味 着 访问 
一 个 100 字 节 的 行 可 能 一 共 要 使 用 32 KB 的 缓存 空间 (有 可 能 更 多 ， 这 取决 于 索引 树 有 
多 深 )。 因 此 ， 缓 存单 位 也 是 在 InnoDB 中 精心 挑选 诊 集 索引 非常 重要 的 另 一 个 原因 。 育 
集 索 引 不 仅 可 以 优化 磁盘 访问 ， 还 可 以 帮助 在 同一 页 面 存储 相关 的 数据 ， 因 此 在 缓存 中 
可 以 尽量 放下 整个 工作 集 。 


9.3.4 找到 有 效 的 内 存 /磁盘 比例 

找到 一 个 良好 的 内 存 / 磁盘 比例 最 好 的 方式 是 通过 试验 和 基准 测试 。 如 果 可 以 把 所 有 东 
西 放 入 内 存 ， 你 就 大 功 告 成 了 一 一 后 面 没 有 必要 再 为 此 考虑 什么 。 但 大 多 数 的 时 候 不 可 
能 这 么 做 ， 所 以 需要 用 数据 的 一 个 子 集 来 做 基准 测试 ， 看 看 将 会 发 生 什 么 。 测 试 的 目标 
是 一 个 可 接受 的 缓存 命中 率 。 缓 存 未 命中 是 当 有 查询 请 求 数 据 时 ， 数 据 不 能 在 内 存 中 命 
中 ， 服 务 器 需要 从 磁盘 获取 数据 。 


缓存 命中 率 实际 上 也 会 决定 使 用 了 多 少 CPU， 所 以 评估 缓存 命中 率 的 最 好 方法 是 查看 


CPU 使 用 率 。 例 如 ， 若 CPU 使 用 了 99% 的 时 间 工 作 ， 用 了 1% 的 时 间 等 待 IO ， 那 缓存 
命中 率 还 是 不 错 的 。 


让 我 们 考虑 下 工作 集 是 如 何 影响 高 速 缓存 命中 率 的 。 首 先 重 要 的 一 点 ， 要 认识 到 工作 集 
不 仅 是 一 个 单一 的 数字 而 是 一 个 统计 分 布 ， 并 且 缓 存 命 中 率 是 非 线性 分 布 的 。 例 如 ， 有 
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10GB 内 存 ， 并 且 缓 存 未 命中 率 为 10%， 你 可 能 会 认为 只 需要 增加 11% 以 上 的 内 存 生 5， 
就 可 以 降低 缓存 的 未 命中 率 到 0。 但 实际 上 ， 诸 如 缓存 单位 的 大 小 之 类 的 问题 会 导致 缓 
存 效率 低下 ， 可 能 意味 着 理论 上 需要 50GB 的 内 存 ， 才 能 把 未 命中 率 降 到 1%。 即 使 与 
一 个 完美 的 缓存 单位 相 匹 配 ， 理 论 预 测 也 可 能 是 错误 的 : 例如 数据 访问 模式 的 因素 也 可 
能 让 事情 更 复杂 。 解 决 1% 的 缓存 未 命中 率 甚 至 可 能 需要 500GB 的 内 存 ， 这 取决 于 具体 
的 工作 负载 ! 


有 时 候 很 容易 去 优化 一 些 可 能 不 会 带 来 多 少 好 处 的 地 方 。 例 如 ，10% 的 未 命中 率 可 能 导 
致 80% 的 CPU 使 用 率 ， 这 已 经 是 相当 不 错 的 了 。 假 设 增加 内 存 ， 并 能 够 让 缓存 未 命中 
率 下 降 到 5%， 简 单 来 说 ， 将 提供 另外 约 6% 的 数据 给 CPU。 再 简化 一 下 ， 也 可 以 说 ， 
把 CPU 使 用 率 增加 到 了 84.8%。 然 而 ， 考 虑 到 为 了 得 到 这 个 结果 需要 购买 的 内 存 ， 这 可 
不 一 定 是 一 个 大 胜利 。 在 现实 中 ， 因 为 内 存 和 磁盘 访问 速度 之 间 的 差异 、CPU 真正 操作 
的 数据 , 以 及 许多 其 他 因素 , 降低 缓存 未 命中 率 到 5% 可 能 都 不 会 太 多 改变 CPU 使 用 率 。 


这 就 是 为 什么 我 们 说 ， 你 应 该 争取 一 个 可 接受 的 缓存 命中 率 ， 而 不 是 将 缓存 未 命中 率 降 
低 到 零 。 没 有 一 个 应 该 作为 目标 的 数字 ， 因 为 “可 以 接受 ”怎么 定义 ， 取 决 于 应 用 程序 
和 工作 负载 。 有 些 应 用 程序 有 1% 的 缓存 未 命中 都 可 以 工作 得 非常 好 ， 而 另 一 些 应 用 实 
际 上 需要 这 个 比例 低 到 0.01% 才能 良好 运转 。( 良好 的 缓存 未 命中 率 ” 是 个 模糊 的 概念 ， 
其 实 有 很 多 方法 来 进一步 计算 未 命中 率 。) 


最 好 的 内 存 / 磁盘 的 比例 还 取决 于 系统 上 的 其 他 组 件 。 假 设 有 16 GB 的 内 存 、20 GB 的 
数据 ， 以 及 大 量 未 使 用 的 磁盘 空间 系统 。 该 系统 在 80% 的 CPU 利用 率 下 运行 得 很 好 。 
如 果 想 在 这 个 系统 上 放置 两 倍 多 的 数据 ， 并 保持 相同 的 性 能 水 平 ， 你 可 能 会 认为 只 需要 
让 CPU 数量 和 内 存量 也 增加 到 两 倍 。 然 而 ， 即 使 系统 中 的 每 个 组 件 都 按照 增加 的 负载 扩 
展 相同 的 量 (一 个 不 切实 际 的 假设 )， 这 依然 可 能 会 使 得 系统 无 法 正常 工作 。 有 20GB 数 
据 的 系统 可 能 使 用 了 某 些 组 件 超过 50% 的 容量 一 一 例如 ， 它 可 能 已 经 用 掉 了 每 秒 1/O 最 
大 操作 数 的 80%。 并 且 在 系统 内 排队 也 是 非 线 性 的 。 服务 器 将 无 法 处 理 两 倍 的 负载 。 因此， 
最 好 的 内 存 / 磁盘 比例 取决 于 系统 中 最 薄弱 的 组 件 。 





9.3.5 选择 硬盘 

如 果 无 法 满足 让 足够 的 数据 在 内 存 中 的 目标 一 一 例如 ， 估 计 将 需要 500 GB 的 内 存 才 能 
完全 让 CPU 负载 起 当前 的 IO 系统 一 一 那么 应 该 考虑 一 个 更 强大 的 1/O 子 系统 ， 有 时 甚 
至 要 以 牺牲 内 存 为 代价 ， 同 时 应 用 程序 的 设计 应 该 能 处 理 IO 等 待 。 


这 上 听 起 来 似乎 有 悖 常理 。 上 毕竟 ， 我 们 刚刚 说 过 ， 更 多 的 内 存 可 以 缓解 IO 子 系统 的 压力 ， 


注 5: 正确 的 数字 是 11% 而 不 是 10%。10% 的 未 命中 率 对 应 90% 的 命中 举 ， 所 以 你 需要 用 10GB 除 以 
90%， 就 是 11.111GB。 
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并 减少 VO 等 待 。 为 什么 要 加 强 I/O 子 系 统 呢 ， 如 果 只 增加 内 存 能 解决 问题 吗 ? 答案 就 
在 所 涉及 的 因素 之 间 的 平衡 ， 例 如 读 写 之 间 的 平衡 ， 每 个 1/0 操作 的 大 小 ， 以 及 每 秒 有 
多 少 这 样 的 操作 发 生 。 例 如 ， 若 需要 快速 写 日 志 ， 就 不 能 通过 增加 大 量 有 效 内 存 来 避免 
HABA. 在 这 种 情况 下 ,投资 一 个 高 性 能 的 1/0 系统 与 带电 池 支 持 的 写 缓存 或 固态 存储 ， 
可 能 是 个 更 好 的 主意 。 


作为 一 个 简要 回顾 ， 从 传统 磁盘 读 取 数 据 的 过 程 分 为 三 个 步骤 : 


1. 移动 读 取 磁 头 到 磁盘 表面 上 的 正确 位 置 。 


2. 等 待 磁盘 旋转 ， 所 有 所 需 的 数据 在 读 取 磁 头 下 。 
3. 等 待 磁盘 旋转 过 去 ， 所 有 所 需 的 数据 都 被 读 取 磁头 读 出 。 


磁盘 执行 这 些 操作 有 多 快 , 可 以 浓缩 为 两 个 数字 :访问 时 间 ( 步 又 1 和 2 合并 ) 和 传输 速度 。 
这 两 个 数字 也 决定 延迟 和 吞吐 量 。 不 管 是 需要 快速 访问 时 间 还 是 快速 的 传输 速度 一 一 或 
混合 两 者 一 一 依赖 于 正在 运行 的 查询 语句 的 种 类 。 从 完成 一 次 磁盘 读 取 所 需要 的 总 时 间 
来 说 ， 小 的 随机 查找 以 步骤 1 和 2 为 主 ， 而 大 的 顺序 读 主 要 是 第 3 步 。 


其 他 一 些 因素 也 可 以 影响 磁盘 的 选择 ， 哪 个 重要 取决 于 应 用 。 假 设 正在 为 一 个 在 线 应 用 
选择 磁盘 ， 例 如 一 个 受 欢迎 的 新 闻 网 站 ， 有 大 量 小 的 磁盘 随机 读 取 。 可 能 需要 考虑 下 列 
因素 : 


存储 容量 | | 
对 在 线 应 用 来 说 容量 很 少 成 为 问题 ， 因 为 现在 的 磁盘 通常 足够 大 了 。 如 果 不 够 ， 用 
RAID 把 小 磁盘 组 合 起 来 是 标准 做 法 5。 
传输 速度 
现代 磁盘 通常 数据 传输 速度 非常 快 ， 正 如 我 们 前 面 看 到 的 。 究 竟 多 快 主要 取决 于 主 
轴 转 速 和 数据 存储 在 磁盘 表面 上 的 密度 ， 再 加 上 主机 系统 的 接口 的 限制 (许多 现代 
磁盘 读 取 数据 的 速度 比 接口 可 以 传输 的 快 )。 无 论 如 何 ， 传 输 速度 通常 不 是 在 线 应 用 
的 限制 因素 ， 因 为 它们 一 般 会 做 很 多 小 的 随机 查找 。 
访问 时 间 
对 随机 查找 的 速度 而 言 ,这 通常 是 个 主要 因素 ,所 以 应 该 寻找 更 快 的 访问 时 间 的 磁盘 。 
主轴 转速 
现在 常见 的 转速 是 7 200RPM、10 000RPM， 以 及 15 000RPM。 转 速 不 管 对 随机 查 
找 还 是 顺序 扫描 都 有 很 大 影响 。 
物理 尺寸 | 
所 有 其 他 条 件 都 相同 的 情况 下 ， 磁 盘 的 物理 尺寸 也 会 带 来 差别 : 越 小 的 磁盘 ， 移 动 


注 6: 有 趣 的 是 ， 有 些 人 故意 买 更 大 容量 的 磁盘 ， 然 后 只 使 用 20% ~ 30% 的 容量 。 这 增加 了 数据 局 部 性 
和 减少 寻 道 时 间 ， 有 时 可 以 证 明 值得 它们 高 的 价格 。 
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读 取 磁 头 需 要 的 时 间 就 越 短 。 服 务 器 级 的 2.5 英寸 磁盘 性 能 往往 比 它 们 的 更 大 的 盘 
更 快 。 它 们 还 可 以 节省 电力 ， 并 且 通 常 可 以 融入 机 箱 中 。 


和 CPU 一 样 ，MySQL 如 何 扩 展 到 多 个 磁盘 上 取决 于 存储 引擎 和 工作 负载 。InnoDB 能 
很 好 地 扩展 到 多 个 硬盘 驱动 器 。 然 而 ，MyISAM 的 表 锁 限制 其 写 的 可 扩展 性 ， 因 此 写 繁 
重 的 工作 加 在 MyISAM 上 ， 可 能 无 法 从 多 个 驱动 器 中 收益 。 虽 然 操 作 系统 的 文件 系统 组 
种 和 后 台 并 发 写 和 会 有 点 帮助 ， 但 MyISAM 相对 于 InnoDB 在 写 可 扩展 性 上 有 更 多 的 限 
制 。 


和 CPU 一 样 , 更 多 的 磁盘 也 并 不 总 是 更 好 。 有 些 应 用 要 求 低 延 迟 需 要 的 是 更 快 的 驱动 器 ， 
而 不 是 更 多 的 驱动 器 。 人 例如， 复制 通常 在 更 快 的 驱动 器 上 表现 更 好 ， 因 为 备 库 的 更 新 是 
单线 程 的 。 宇 7 


9.4 固态 存储 


固态 (内存) 存储 器 实际 上 是 有 30 年 历史 的 技术 ， 但 是 它 作为 新 一 代 驱 动 器 而 成 为 热 
门 则 是 最 近 几 年 的 事 。 固 态 存储 现在 越 来 越 便 宜 ， 并 且 也 更 成 熟 了 ， 它 正在 被 广泛 使 用 ， 
并 且 可 能 会 在 不 久 的 将 来 在 多 种 用 途上 代替 传统 磁盘 。 


固态 存储 设备 采用 非 易 失 性 闪存 芯片 而 不 是 磁性 盘 片 组 成 。 它 们 也 被 称 为 NVRAM,， 或 
非 易 失 性 随机 存 取 存 储 器 。 固 态 存储 设备 没有 移动 部 件 ， 这 使 得 它们 表现 得 跟 硬 盘 驱动 
器 有 很 大 的 不 同 。 我 们 将 详细 探讨 其 差异 。 


目前 MySQL 用 户 感 兴趣 的 技术 可 分 为 两 大 类 : SSD (固态 硬盘 ) 和 PCIe 卡 。SSD 通过 
实现 SATA 〈 串 行 高 级 技术 附件 ) 接口 来 模拟 标准 硬盘 ， 所 以 可 以 替代 硬盘 驱动 器 ， 直 
接 插入 服务 器 机 箱 中 的 现 有 插 模 。PCIe 卡 使 用 特殊 的 操作 系统 驱动 程序 ， 把 存储 设备 作 
为 一 个 块 设备 输出 。PCIe 和 SSD 设备 有 时 可 以 简单 地 都 认为 是 SSD。 


下 面 是 闪存 性 能 的 快速 小 结 。 高 质量 闪存 设备 具备 : 


。 相 比 硬盘 有 更 好 的 随机 读 写 性 能 。 内 存 设备 通常 读 明 显 比 写 要 快 。 

© 相 比 硬盘 有 更 好 的 顺序 读 写 性 能 。 但 是 相 比 而 言 不 如 随机 IO 的 改善 那么 大 ， 因 为 
硬盘 随机 I/O 比 顺序 I/O 要 慢 得 多 。 入 门 级 固态 硬盘 的 顺序 读 取 实际 上 还 可 能 比 传 
统 硬盘 慢 。 

。 相 比 硬盘 能 更 好 地 支持 并 发 。 闪 存 设备 可 以 支持 更 多 的 并 发 操作 ， 事 实 上 ， 只 有 大 
量 的 并 发 请 求 才 能 真正 实现 最 大 吞吐 量 。 


注 7: 5$.6 也 可 以 按 库 做 多 线程 复制 。 一 一 译 者 注 
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最 重要 的 事情 是 提升 随机 IO 和 并 发 性 。 闪 存 记 忆 体 可 以 在 高 并 发 下 提供 很 好 的 随机 IO 


性 能 ， 这 正 是 范式 化 的 数据 库 所 需要 的 。 设 计 非 范式 化 的 Schema 最 常见 的 原因 之 一 是 


为 了 避免 随机 MO， 并 且 使 得 查询 可 能 转化 为 顺序 MO。 


因此 ， 我 们 相信 固态 存储 未 来 将 从 根本 上 改变 RDBMS 技术 。 当 前 这 一 代 的 RDBMS 技 
术 几 十 年 来 都 是 为 机 械 磁盘 做 优化 的 。 同 样 成 熟 和 深入 的 研究 工作 在 固态 存储 上 还 没有 
HEM, 


9.4.1 闪存 概述 


硬盘 驱动 器 使 用 旋转 盘 片 和 可 移动 磁头 ， 其 物理 结构 决定 了 磁盘 固有 的 局 限 性 和 特征 。 


对 固态 存储 也 是 一 样 ， 它 是 构建 在 内 存 之 上 的 。 不 要 以 为 固态 存储 很 简单 ， 实 际 上 比 硬 
盘 驱 动 器 在 某 些 方面 更 复杂 。 内 存 的 限制 实际 上 是 相当 严重 的 ， 并 且 难 以 克服 ， 所 以 典 
型 的 固态 设备 都 有 错综复杂 的 架构 、 缓 存 ， 以 及 独 有 的 “法 宝 ”。 


闪存 的 最 重要 的 特征 是 可 以 迅速 完成 多 次 小 单位 读 取 ， 但 是 写 人 更 有 挑战 性 。 闪 存 不 能 
在 没有 做 擦 除 操作 前 改写 一 个 单元 (Cell) ®°, 并且 一 次 必须 擦 除 一 个 大 块 一 一 例如 , 512 
KB。 擦 除 周期 是 缓慢 的 ， 并 且 最 终 会 磨损 整个 块 。 一 个 块 可 以 容忍 的 擦 除 周期 次 数 取 决 
于 所 使 用 的 底层 技术 ， 有 关 这 些 内 容 我 们 稍 后 再 讲 。 


写 入 的 限制 是 固态 存储 复杂 的 原因 。 这 也 是 为 什么 一 些 设备 供应 商 在 设备 的 稳定 、 性 能 
的 一 致 性 等 方面 和 其 他 供应 商 有 区 别 的 原因 。 魔法 ”全 部 都 在 其 专 有 的 固件 .驱动 程序 ， 
以 及 其 他 零 零 碎 碎 的 东西 里 ， 这 些 东 西 使 得 固态 设备 良好 运转 。 为 了 使 写 和 表现 良好 ， 
并 避免 闪存 块 过 早 损耗 完 寿 命 ， 设 备 必须 能 够 搬迁 页 面 并 执行 垃圾 收集 和 所 谓 的 磨损 均 
衡 。 写 放大 用 于 描述 数据 从 一 个 地 方 移动 到 另 一 个 地 方 的 额外 写 操作 ， 多 次 写 数 据 和 元 
数据 导致 局 部 块 经 常 写 。 如 果 你 有 兴趣 ,维基 百科 中 的 写 放 大 的 文章 ,是 个 学 习 的 好 地 方 ， 
可 以 从 其 中 了 解 更 多 关于 闪存 的 知识 。 


垃圾 收集 对 理解 闪存 很 重要 。 为 了 保持 一 些 块 是 干净 的 并 且 可 以 被 写 和 信 ， 设 备 需要 回收 
脏 块 。 这 需要 设备 上 有 一 些 空闲 空间 。 无 论 是 设备 内 部 有 一 些 看 不 到 的 预 留 空间 ， 或 者 
通过 不 写 那么 多 数据 来 预 留 需要 的 空间 一 一 不 同 的 设备 可 能 有 所 不 同 。 无 论 哪 种 方式 ， 
设备 填 满 了 ， 垃 圾 收集 就 必须 更 加 努力 地 工作 ， 以 保持 一 些 块 是 干净 的 ， 所 以 写 放大 的 
倍数 就 增加 了 。 | 


因此 ， 许 多 设备 在 被 填 满 后 会 开始 变 慢 。 到 底 会 慢 多 少 ， 不 同 的 制造 商 和 型 号 之 间 有 所 
不 同 ， 依 赖 于 设备 的 架构 。 有 些 设备 为 高 性 能 而 设计 ， 即 使 写 得 非常 满 ， 依 然 可 以 保持 
注 8: 有些 公司 声称 ,他 们 抛 译 过 去 主轴 (机 械 ) 的 蜡 绊 ,从 一 个 干净 的 石板 开始 。 漫 和 的 怀疑 是 有 道理 的 ; 


解决 RDBMS 的 挑战 是 不 容易 的 。 
注 9: 这 是 一 种 简化 ， 但 细节 在 这 里 并 不 重要 。 如 果 你 音 欢 ， 可 以 阅读 维基 百科 上 的 更 多 信息 。 
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高 性 能 。 但 是 ， 通 常 一 个 100GB 的 文件 在 160GB 和 320GB 的 SSD 上 表现 完全 不 同 。 
速度 下 降 是 由 于 没有 空闲 块 时 必须 等 待 擦 写 完 成 所 造成 的 。 写 到 一 个 空闲 块 只 需要 花费 
数 百 微 秒 ， 但 是 擦 写 慢 得 多 一 一 通常 需要 儿 个 片 秒 。 


9.4.2 闪存 技术 
有 两 种 主要 的 内 存 设 备 类 型 ， 当 考虑 购买 内 存 存储 时 ， 理解 两 者 之 间 的 不 同 是 很 重要 的 。 
这 两 种 类 型 分 别 是 单 层 单元 (SLC) 和 多 层 单元 (MLC). 


SLC 的 每 个 单元 存储 数据 的 一 个 比特 : 可 以 是 0 或 1。SLC 相对 更 昂贵 ， 但 非常 快 ， 并 
且 控 写 寿 命 高 达 100 000 个 写 周 期 ， 具 体 值 取决 于 供应 商 和 型 号 。 这 听 起 来 好 像 不 多 ， 
但 在 现实 中 一 个 好 的 SLC 设备 应 该 持续 使 用 大 约 20 年 左右 ， 其 至 比 卡 上 安装 的 控制 器 
更 耐用 和 可 靠 。 缺 点 则 是 存储 密度 相对 较 低 ， 所 以 不 能 在 每 个 设备 上 得 到 那么 多 空间 。 


MLC 每 个 单元 存储 2 个 比特 、3 个 比特 的 设备 也 正在 进入 市 场 。 这 使 得 通过 MLC 设备 
获得 更 高 的 存储 密度 (更 大 的 容量 ) 成 为 可 能 。 成 本 更 低 了 ,但 是 速度 和 耐 擦 写 性 也 下 
降 了 。 一 个 不 错 的 MLC 设备 可 能 被 定 为 10 000 个 写 循环 周期 。 


可 以 在 大 众 市 场 上 购买 到 这 两 种 类 型 的 闪存 设备 ， 它 们 之 间 的 竞争 有 助 于 闪存 的 发 展 。 
目前 ，SLC 仍 持 有 “企业 ”级 服务 器 的 存储 解决 方案 的 声誉 ,通常 被 视 为 消费 级 的 MLC 
设备 , 一般 使 用 在 笔记 本 电脑 和 数码 相机 等 地 方 。 然 而 ， 这 种 情况 正在 改变 ， 出 现 了 一 
种 新 兴 的 所 谓 企业 级 MLC (eMLC) 存储 。 


MLC 技术 的 发 展 是 很 有 意思 的 ， 如 果 正 在 考虑 购买 闪存 存储 ， 这 个 发 展 方向 值得 密切 关 
注 。MLC 非常 复杂 ， 包 含 很 多 有 助 于 设备 质量 和 性 能 的 重要 因素 。 任 何 给 定 的 芯片 仅 靠 
自身 是 不 能 持久 化 的 ， 因 为 有 着 相对 较 短 的 信号 保持 周期 ， 以 及 较 高 的 错误 率 必须 纠正 。 
随 着 市 场 转移 到 更 小 、 密 度 更 高 的 芯片 ， 其 中 的 芯片 单元 可 以 存储 3 比特 ， 单 个 芯片 变 
得 更 不 可 靠 以 及 更 容易 出 错 。 


然而 ， 这 并 不 是 一 个 不 可 逾越 的 工程 问题 。 厂 商 正 在 制造 一 些 有 越 来 越 多 隐藏 容量 的 设 
备 ,因此 有 足够 的 内 部 元 余 。 尽 管内 存 厂商 非常 注意 保护 自己 的 商业 秘密 ,还 是 有 传言 称 ， 
某 些 设备 可 能 有 比 它 标 称 大 小 多 出 高 达 两 倍 的 存储 空间 。 使 MLC 芯片 更 耐用 的 另 一 种 
方法 是 通过 固件 逻辑 。 平 衡 磨损 和 重 映射 的 算法 是 非常 重要 的 。 


寿命 的 长 短 取决 于 真实 的 容量 ， 固 件 逻 辑 等 一 一 所 以 最 终 是 因 供 应 商 而 异 的 。 我 们 昕 说 
过 在 几 个 星期 里 密集 使 用 导致 设备 报废 的 报告 ! 


因此 ，MLC 设备 最 关键 的 环节 是 内 置 的 算法 和 智能 。 制 造 一 个 好 的 MLC 设备 比 制造 一 
个 SLC 设备 难得 多 ， 但 也 是 可 能 的 。 随 着 工程 学 的 伟大 进步 ， 以 及 容量 和 密度 的 增加 ， 
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一 些 最 好 的 供应 商 提供 的 设备 ， 是 值得 用 eMLC 这 个 标签 的 。 这 个 领域 随 着 时 间 的 推移 
进步 得 很 快 ， 本 书 对 MLC 与 SLC 的 意见 可 能 很 快 会 变 得 过 时 ， 


设备 的 寿命 还 剩 多 久 ? 


Virident 担保 其 FlashMax 1.4 TB MLC 设备 可 以 持续 写 入 15 PB 数据 ， 但 这 是 在 闪 
存 级 别 的 数据 ， 用 户 可 见 的 写 入 是 会 放大 的 。 我 们 跑 了 一 个 小 实验 来 发 现 特定 的 工 
作 员 载 下 的 写 入 放大 因子 。 


我 们 创建 了 一 个 500GB 的 数据 集 ， 然 后 在 上 面 运行 ijpcc-mysgql 基准 测试 ， 跑 了 一 
个 小 时 。 在 这 个 小 时 里 ，/proc/diskstats 报告 了 984GB 的 写 入 ， 然 后 Virident 配 
置 工具 显示 在 闪存 层 有 1 125GB 的 写 入 ， 因 此 写 入 放大 因子 是 1.14。 记 住 ， 如 果 
设备 上 消耗 了 更 多 空间 ， 这 个 值 会 更 高 ， 并 且 这 个 值 的 浮动 还 基于 写 入 方式 是 顺序 
还 是 随机 。 


在 这 样 的 比率 下 ， 如 果 不 间 断 地 跑 一 年 半 的 基准 测试 ， 就 可 以 用 完 设备 的 寿命 。 当 
KR, 真实 的 工作 负载 很 少 是 写 密集 型 的 ， 所 以 这 个 卡 在 实际 使 用 中 应 该 可 以 持续 工 
作 很 多 年 。 这 个 观点 不 是 说 该 设备 将 很 快 磨损 一 一 它 是 说 ， 写 放大 系数 是 很 难 预测 
的 ， 需 要 检查 设备 ， 根 据 工作 量 来 查看 它 的 行为 。 


容量 对 寿命 的 影响 也 很 大 ， 正 如 我 们 已 经 提 到 的 。 更 大 容量 的 设备 会 使 得 寿命 显著 
增长 ， 这 是 为 什么 MLC 越 来 越 流行 一 一 最 近 我 们 看 到 足够 大 的 容量 可 以 延长 寿命 
是 有 理由 的 。 


9.4.3 闪存 的 基准 测试 

对 内存 设备 进行 基准 测试 是 复杂 并 且 困 难 的 。 有 很 多 情况 会 导致 测试 错误 ， 需 要 了 解 特 
定 设备 的 知识 ， 并 且 需 要 有 极 大 的 耐心 和 关注 ， 才 能 正确 地 操作 。 

闪存 设备 有 一 个 三 阶段 模式 ， RERA A-B-C 性 能 特性 。 它 们 开始 阶段 运行 非常 快 〈 阶 
Et A), 然后 垃圾 回收 器 开始 工作 , 这 将 导致 在 一 段 时 间 内 , 设备 处 于 过 渡 到 稳定 状态 (Bt 
EB) 的 阶段 ， 最 后 设备 进入 一 个 稳定 状态 (状态 C) 。 所 有 我 们 测试 过 的 设备 都 有 这 个 
特点 。 


当然 ， 我 们 感 兴趣 的 是 阶段 C 的 性 能 ， 所 以 基准 测试 只 需要 测量 这 个 部 分 的 运行 过 程 。 
这 意味 着 基准 测试 要 做 的 不 仅仅 是 基准 测试 : 还 需要 先进 行 一 下 预 热 ， 然 后 才能 进行 基 
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EMMI. (LAE, ELMAR a AE EMA AE eR. 


设备 、 文 件 系统 ， 以 及 操作 系统 通过 不 同方 式 提供 TRIM 命 令 的 支持 ， 这 个 命令 标记 空 
间 准 备 重用 。 有 时 当 删 除 所 有 文件 时 设备 会 被 TRIM。 如 果 在 基准 测试 运行 的 情况 下 发 生 ， 
设备 将 重 置 到 阶段 A， 然 后 必须 重新 执行 A 和 B 之 间 的 运行 阶段 。 另 一 个 因素 是 设备 被 
填充 得 很 满 或 者 不 满 时 ， 不 同 的 性 能 表现 。 一 个 可 重复 的 基准 测试 必须 覆盖 到 所 有 这 些 
因素 。 


通过 上 述 分 析 ， 可 知 基准 测试 的 复杂 性 ， 所 以 就 算 厂 商 如 实地 报告 测试 结果 ， 但 对 于 外 
行 来 说 ， 厂 商 的 基准 测试 和 规格 说 明 书 依然 可 能 有 很 多 “ 坑 。 

通常 可 以 从 供应 商 那 得 到 四 个 数字 。 这 里 有 一 个 设备 规格 的 例子 : 

设备 读 取 性 能 最 高 达 520 MB/s. 

设备 写 和 人 性 能 最 高 达 480 MB/s. 


设备 持续 写 入 速度 可 以 稳定 在 420 MB/s。 
设备 每 秒 可 以 执行 70 000 个 4 KB 的 写 操 作 。 


A L N 一 


如 果 再 次 复核 这 些 数字 ， 你 会 发 现 峰 值 4KB 写 入 达到 70 000 个 IOPS (每 秒 输入 /输出 
操作 ) ， 这 么 算 每 秒 写 人 大 约 只 有 274 MB/s， 这 上 比 第 二 点 和 第 三 点 中 说 明 的 高 峰 写 入 带 
宽 少 了 很 多 。 这 是 因为 达到 峰值 写 入 带宽 时 是 用 更 大 的 块 ， 例 如 64 KB 或 128 KB. A 
更 小 的 块 大 小 来 达到 峰值 IOPS。 


大 部 分 应 用 不 会 写 这 么 大 的 块 。InnoDB 写 操作 通常 是 16KB 或 512 字 市 的 块 组 合 到 一 起 
写 回 。 因 此 ， 设 备 应 该 只 有 274MB/s 的 写 出 带宽 一 一 这 是 阶段 A 的 情况 ， 在 垃圾 回收 
器 开局 和 设备 达到 长 期 稳定 的 性 能 等 级 前 ! 

在 我 们 的 博客 中 ， 可 以 找到 目前 的 MySQL 基准 测试 ， 以 及 在 固态 硬盘 上 裸 设备 文件 TO 
的 工作 负载 : Attp://www.ssdperformanceblog.com Fil http://www.mysqlperformanceblog. 


COM 。 


9.4.4 固态 硬盘 驱动 器 (SSD ) 
SSD 模拟 SATA 硬盘 驱动 器 。 这 是 一 个 兼容 性 功能 : 替换 SATA 硬盘 不 需要 任何 特殊 的 
驱动 程序 或 接口 。 


英特尔 的 X-25E 驱动 器 可 能 是 我 们 今天 看 到 在 服务 器 中 最 常见 的 固态 硬盘 ， 但 也 有 很 多 
其 他 选择 。X-25E 是 为 “企业 ”级 消费 市 场 开发 的 ， 但 也 有 用 MLC 存储 的 X-25SM， 这 
是 为 笔记 本 电脑 用 户 等 大 众 市 场 准备 的 。 此 外 ， 英 特 尔 还 销售 320 系列 ， 也 有 很 多 人 正 
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在 使 用 。 再 次 ， 这 仅仅 是 一 个 供应 商 
的 关于 SSD 的 一 些 东 西 可 能 已 经 过 时 。 





还 有 很 多 ， 在 这 本 书 去 印刷 的 时 候 ， 我 们 所 写 


关于 SSD 的 好 处 是 ， 它 们 有 大 量 的 品牌 和 型 号 相对 是 比较 便宜 的 ， 同 时 它们 比 硬盘 快 了 
很 多 。 最 大 的 缺点 是 ， 它 们 并 不 总 是 像 硬 盘 一 样 可 靠 ， 这 取决 于 品牌 和 型 号 。 直 到 最 近 ， 
大 多 数 设备 都 没有 板 载 电池 ， 但 大 多 数 设备 上 有 一 个 写 缓存 来 缓冲 写 入 。 写 入 缓存 在 没 
有 电池 备份 的 情况 下 并 不 能 持久 化 ， 但 是 在 快速 增长 的 写 负 载 下 ， 它 不 能 关闭 ， 否 则 内 
存 存储 无 法 承受 。 所 以 ， 如 果 禁 用 了 驱动 器 的 高 速 缓存 以 获得 真正 持久 化 的 存储 ， 将 会 
更 快 地 耗 完 设备 寿命 ， 在 某 些 情况 下 ， 这 将 导致 保修 失效 。 


有 些 厂家 完全 不 急于 告诉 购买 他 们 固态 硬盘 的 客户 关于 SSD 的 特点 ， 并 且 他 们 对 设备 的 
内 部 架构 等 细 市 守 口 如 瓶 。 是 否 有 电池 或 电容 保护 写 缓存 的 数据 安全 ， 在 电源 故障 的 情 
况 下 ,通常 是 一 个 基 而 未 决 的 问题 。 在 茶 些 情况 下 ， 驱 动 器 会 接受 禁用 缓存 的 命令 ,但 
忽略 了 它 。 所 以 ， 除 非 做 过 崩溃 试验 ， 否 则 真 的 有 可 能 不 知道 驱动 器 是 否 是 持久 化 的 ， 
我 们 对 一 些 驱 动 器 进行 了 崩 祷 测试 ， 发 现 了 不 同 的 结果 。 如 今 ， 一 些 驱 动 器 有 电容 器 保 
护 缓存 ， 使 其 可 以 持久 化 ， 但 一 般 来 说 ， 如 果 驱 动 器 不 是 自 夸 有 一 个 电池 或 电容 ， 那 么 
它 就 没有 。 这 意味 着 在 断 电 的 情况 下 不 是 持久 化 的 ， 所 以 可 能 出 现 数据 已 经 损坏 却 还 不 
知情 的 情况 。SSD 是 否 配置 电容 或 电池 是 我 们 必须 关注 的 特性 。 


通常 ， 使 用 SSD 都 是 值得 的 。 但 底层 技术 的 挑战 是 不 容易 解决 的 。 很 多 厂家 做 出 的 驱动 
器 在 高 负载 下 很 快 就 崩溃 了 ， 或 不 提供 持续 一 致 的 性 能 。 一 些 低 端的 制造 商 有 一 个 习惯 ， 
每 次 发 布 新 一 代 驱 动 器 ， 就 声称 他 们 已 经 解决 了 老 一代 的 所 有 问题 。 这 往往 是 不 真实 的 ， 
当然 ， 如 果 关 心 可 靠 性 和 持续 的 高 性 能 ,“ 企 业 级 ”的 设备 通常 值得 它 的 价钱 。 


用 SSD 做 RAID 


我 们 建议 对 SATA SSD ŽEH RAID (Redundant Array of Inexpensive Disks， 磁 盘 元 余 
阵列 ) 。 单 一 驱动 器 的 数据 安全 是 无 法 让 人 信服 的 。 


许多 旧 的 RAID 控制 器 并 不 支持 SSD。 因 为 它们 假设 管理 的 是 机 械 硬盘 ， 包 括 写 缓冲 和 
写 排序 这 些 特性 都 是 为 机 械 硬 盘 而 设计 的 。 这 不 但 纯 属 无 效 工 作 ， 也 会 增加 响应 时 间 ， 
因为 SSD 暴露 的 逻辑 位 置 会 被 映射 到 底层 内 存 记 忆 体 中 的 任意 位 置 。 现 在 这 种 情况 好 一 
Ao AŒ RAID 控制 器 的 型 号 末尾 有 一 个 字母 ， 表 明 它 们 是 为 SSD 做 了 准备 的 。 例 如 ， 
Adaptec 控制 器 用 Z 标识 。 


然而 ， 即使 支持 闪存 的 控制 器 ， 也 不 一 定 真 的 就 对 闪存 支持 很 好 。 例 如 ，Vadim 对 
Adaptec 5805Z 控制 器 进行 了 基准 测试 ， 他 用 了 多 种 驱动 器 做 RAID 10, 16 个 并 发 操作 
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500 GB 的 文件 。 结 果 是 很 糟糕 的 :95% 的 随机 写 延迟 在 两 位 数 的 毫秒 , 在 最 坏 的 情况 下 ， 
超过 一 秒 钟 二 "。( 期 望 的 应 该 是 亚 毫 秒 级 写 信 。) 


这 种 特定 的 比较 ， 是 一 家 客户 为 了 看 到 Micron SSD 是 否 会 比 64GB 的 Intel SSD 更 好 而 - 
做 的 ， 该 比较 是 基于 相同 的 配置 的 。 当 为 英特尔 驱动 器 进行 基准 测试 时 ， 我 们 发 现 了 相 
同 的 性 能 特征 。 因 此 ， 我 们 尝试 了 一 些 其 他 驱动 器 的 配置 ， 不 管 有 没有 SAS 扩展 器 ， 看 
看 会 发 生 什 么 。 表 9-1 显示 了 这 个 结果 。 


#9-1: 在 Adaptec RAID 控制 器 上 用 SSD 进 行 的 基准 测试 
驱动 器 数量 “厂家 大 小 ” ”SAS 扩展 器 ”随机 读 随机 写 


34 Intel 64 GB Yes 310 MB/s 130 MB/s 
14 Intel 64 GB Yes 305 MB/s 145 MB/s 
24 Micron 506GB No 350 MB/s 120 MB/s 
34 Intel | 50 GB No _ 350 ‘MB/s — _ 180 MB/s — 


Cr 


这 些 结果 都 没有 达到 我 们 对 这 么 多 驱动 器 的 期 望 。 在 一 般 情况 下 ，RAID 控制 器 的 性 能 
表现 ， 只 能 满足 对 6 ~ 8 个 驱动 器 的 期 望 ， 而 不 是 几 十 个 。 原 因 很 简单 ，RAID 控制 器 
达到 了 瓶颈 。 这 个 故事 的 重点 是 ， 在 对 硬件 投入 巨 资 前 ， 应 该 先 仔细 进行 基准 测试 一 一 
结果 可 能 与 期 望 的 有 相当 大 的 区 别 。 


9.4.5 PCle 存储 设备 


相对 于 SATA SSD, PCle 设备 没有 尝试 模拟 硬盘 驱动 器 。 这 种 设计 是 好 事 : 服务 器 和 硬 
盘 驱 动 器 之 间 的 接口 不 能 完全 发 挥 闪 存 的 性 能 。SAS/SATA 互联 带宽 比 PCIe 要 低 ， 所 以 
PCle 对 高 性 能 需求 是 更 好 的 选择 。PCIe 设备 延迟 也 低 得 多 ， 因 为 它们 在 物理 上 更 靠近 
CPU。 


没有 什么 比 得 上 从 PCIe 设备 上 获得 的 性 能 。 缺 点 就 是 它们 太 贵 了 。 


所 有 我 们 熟悉 的 型 号 都 需要 一 个 特殊 的 驱动 程序 来 创建 块 设备 ， 让 操作 系统 把 它 认 成 一 
个 硬盘 驱动 器 。 这 些 驱动 程序 使 用 着 混合 磨损 均衡 和 其 他 逻辑 的 策略 ， 有 些 使 用 主机 系 
统 的 CPU 和 内 存 ， 有 些 使 用 板 载 的 逻辑 控制 器 和 RAM (内 存 )。 在 许多 场景 下 ， 主 机 
系统 有 丰富 的 CPU MRAM 资源 ， 所 以 相对 于 购买 一 个 自身 有 这 些 资源 的 卡 ， 利 用 主机 
上 的 资源 实际 上 是 更 划算 的 策略 。 


我 们 不 建议 对 PCIe 设备 建 RAID。 它 们 用 RAID 就 太 昂贵 了 ， 并 且 大 部 分 设备 无 论 以 何 
种 方式 ， 都 有 它们 自己 板 载 的 RAID。 我 们 并 不 真 的 知道 控制 器 坏 了 以 后 会 怎么 样 ， 但 
是 厂商 说 他 们 的 控制 器 通常 跟 网 卡 或 者 RAID 控制 器 一 样 好 ， 看 起 来 确实 是 这 样 。 换 


注 10 : 但 这 不 是 全 部 。 我 们 在 基准 测试 后 检查 了 驱动 器 ， 并 且 发 现 两 块 SSD 坏 盘 ， 有 一 块 不 一 致 。 
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句 话 说， 这 些 设 备 的 平均 无 故障 时 间 间 隔 (MTBF) 接近 于 主板 ， 所 以 对 这 些 设备 使 用 
RAID 只 是 增加 了 大 量 成 本 而 没有 多 少 好 处 。 


. 有 许多 家 供应 商 在 生产 PCIe 闪存 卡 。 对 MySQL 用 户 来 说 最 著名 的 厂商 是 Fusion-io 和 


Virident， 但 是 像 Texas Memory Systems, STEC 和 OCZ 这 样 的 厂商 也 有 用 户 。SLC 和 
MLC 都 有 相应 的 PCIe 卡 产品 。 


9.4.6 其 他 类 型 的 固态 存储 

除了 SSD 和 PCIe 设 备 ， 也 有 其 他 公司 的 产品 可 以 选择 ， 例 如 Violin Memory, 
SandForce 和 Texas Memory Systems。 这 些 公 司 提 供 有 几 十 TB 存储 容量 ， 本 质 上 是 闪存 
SAN 的 大 箱子 。 它们 主要 用 于 大 型 数据 中 心 存储 的 整合 。 虽 然 价 格 非常 昂贵 ， 但 是 性 能 
也 非 和 党 高。 我们 知道 一 些 使 用 的 例子 ， 并 在 某 些 场景 下 测量 过 性 能 。 这 些 设备 能 够 提供 
相当 好 的 延迟 ， 除 了 网 络 往返 时 间 一 一 例如 ， 通 过 NEFS 有 小 于 4 毫秒 的 延迟 。 


然而 这 些 都 不 适合 一 般 的 MySQL 市 场 。 它 们 的 目标 更 针对 其 他 数据 库 ， 如 Oracle， 可 
以 用 来 做 共享 存储 集群 。 一 般 情况 下 ，MySQL 在 如 此 大 规模 的 场景 下 ， 不 能 有 效 利用 
如 此 强大 的 存储 优势 ， 因 为 在 数 十 个 TB 的 数据 下 MySQL 很 难 良 好 地 工作 一 一 MySQL 
对 这 样 一 个 庞大 的 数据 库 的 回答 是 ， 拆 分 、 横 向 扩展 和 无 共享 (Shared-nothing) 架构 。 


虽然 专业 化 的 解决 方案 可 能 能 够 利用 这 些 大 型 存储 设备 一 一 例如 Infobright 可 能 成 为 候 
选 人 。ScaleDB 可 以 部 自在 共享 存储 (Shared-storage) 架构 ， 但 我 们 还 没有 看 到 它 在 生 
产 环 境 应 用 ， 所 以 我 们 不 知道 其 工作 得 如 何 。 


9.4.7 什么 时 候 应 该 使 用 闪存 


固态 存储 最 适合 使 用 在 任何 有 着 大 量 随 机 IO 工作 负载 的 场景 下 。 随 机 IO 通常 是 由 于 
数据 大 于 服务 器 的 内 存 导致 的 。 用 标准 的 硬盘 驱动 器 ， 受 限于 转速 和 寻 道 延迟 ， 无 法 提 
供 很 高 的 IOPS。 办 存 设备 可 以 大 大 缓解 这 种 问题 。 


当然 ， 有 时 可 以 简单 地 购买 更 多 内 存 ， 这 样 随 机 工作 负载 就 可 以 转移 到 内 存 ，L/O 就 不 
存在 了 。 但 是 当 无 法 购买 足够 的 内 存 时 ， 闪 存 也 可 以 提供 帮助 。 另 一 个 不 能 总 是 用 内 存 
解决 的 问题 是 ， 高 吞吐 的 写 和 负载。 增加 内 存 只 能 帮助 减少 写 和 负载 到 磁盘 ， 因 为 更 多 
的 内 存 能 创造 更 多 的 机 会 来 缓冲 、 合 并 写 。 这 允许 把 随机 写 转换 为 更 加 顺序 的 VO. 


然而 ， 这 并 不 能 无 限 地 工作 下 去 ， 一 些 事务 或 插入 莹 忙 的 工作 负载 不 能 从 这 种 方法 中 获 
益 。 闪 存 存 储 在 这 种 情况 下 却 也 有 帮助 。 


单线 程 工作 负载 是 男 一 个 内 存 的 潜在 应 用 场景 。 当 工作 负载 是 单线 程 的 时 候 ， 它 是 对 延 
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述 非 常 敏感 的 ， 固 态 存 储 更 低 的 延迟 可 以 带 来 很 大 的 区 别 。 相 反 ， 多 线程 工作 负载 通常 
可 以 简单 地 加 大 并 行 化 程度 以 获得 更 高 的 吞吐 量 。MyYSQL 复制 是 单线 程 工作 的 典型 例 
子 ， 它 可 以 从 低 延 迟 中 获得 很 多 收益 。 在 备 库 跟 不 上 主 库 时 ， 使 用 内 存 存储 往往 可 以 显 
著 提 高 其 性 能 。 


闪存 也 可 以 为 服务 器 整合 提供 巨大 的 帮助 ， 尤 其 是 PCIe 方式 的 。 我 们 已 经 看 到 了 机 会 ， 
把 很 多 实例 整合 到 一 台 物 理 服务 器 一 一 有 时 高 达 10 或 15 倍 的 整合 都 是 可 能 的 。 更 多 天 
于 这 个 话题 的 信息 ， 请 参见 第 11 章 。 


然而 闪存 也 可 能 不 一 定 是 你 要 的 答案 。 一 个 很 好 的 例子 是 ， 像 InnoDB 日 志文 件 这 样 的 
顺序 写 的 工作 负载 ， 内 存 不 能 提供 多 少 成 本 与 性 能 优势 ， 因 为 在 这 种 情况 下 ， 内 存 连 续 
写 方面 不 比 标准 硬盘 快 多 少 。 这 样 的 工作 负载 也 是 高 吞吐 的 ， 会 更 快 耗 尽 闪存 的 寿命 。 
在 标准 硬盘 上 存放 日 志文 件 通 常 是 一 个 更 好 的 主意 ， 用 具有 电池 保护 写 缓存 的 RAID 控 
制 器 。 


有 时 答案 在 于 内 存 /磁盘 的 比例 ,而 不 只 是 磁盘 。 如 果 可 以 买 足够 的 内 存 来 缓存 工作 负载 ， 
就 会 发 现 这 更 便宜 ， 并 且 比 购买 内 存 存储 设备 更 有 效 。 


9.4.8 使 用 Flashcache 


虽然 有 很 多 因素 需要 在 闪存 、 硬 盘 和 RAM 之 间 权 衡 ， 在 存储 层次 结构 中 ， 这 些 设 备 没 
有 被 当 作 一 个 整体 处 理 。 有 时 可 以 使 用 磁盘 和 内 存 技术 的 结合 ， 这 就 是 Flashcache。 


Flashcache 是 这 种 技术 的 一 个 实现 ， 可 以 在 许多 系统 上 发 现 类 似 的 使 用 ， 例 如 Oracle 数 
据 库 、ZFS 文件 系统 ， 甚 至 许多 现代 的 硬盘 驱动 器 和 RAID 控制 器 。 下 面 讨 论 的 许多 东 
西 应 用 广泛 ， 但 我 们 将 只 专注 于 Flashcache， 因 为 它 和 厂商 、 文 件 系统 无 关 。 


Flashcache 是 一 个 Linux 内 核 模块 ， 使 用 Linux 的 设备 映射 器 (Device Mapper)。 它 在 
内 存 和 磁盘 之 间 创 建 了 一 个 中 间 层 。 这 是 Facebook 开源 和 使 用 的 技术 之 一 ， 可 以 帮助 其 
优化 数据 库 负 载 。 


Flashcache 创建 了 一 个 块 设备 ,并 且 可 以 被 分 区 ,也 可 以 像 其 他 块 设备 一 样 创建 文件 系统 ， 
特点 是 这 个 块 设备 是 由 闪存 和 磁盘 共同 支撑 的 。 闪 存 设备 用 作 读 取 和 写 信 的 智能 高 速 缓 
A 


虚拟 块 设备 远 比 内 存 设备 要 大 ,但 是 没关系 ， 因 为 数据 最 终 都 存储 在 磁盘 上 。 闪 存 设 备 
只 是 去 缓冲 写 入 和 缓存 读 取 ， 有 效 弥 补 了 服务 器 内 存 容量 的 不 足 “"。 


注 11 : 总 思 就 是 内 存放 不 下 要 缓存 的 数据 时 ， 换 出 到 Flashcache 上 ，Flashache 的 闪存 设备 可 以 帮助 继续 
缓存 ， 而 不 会 立刻 落 到 磁盘 。 一 译 者 注 
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这 种 性 能 有 多 好 呢 ? Flashcache 似乎 有 相对 较 高 的 内 核 开销 。( 设 备 映 射 并 不 总 是 像 看 
起 来 那么 有 效 ， 但 我 们 还 没 深入 调查 找 出 原因 。) 但 是 ， 尽 管 Flashcache 理论 上 可 能 更 
高 效 ， 但 最 终 的 性 能 表现 并 不 如 底层 的 闪存 存储 那么 好 ， 不 过 它 仍然 比 磁盘 快 很 多 ， 所 
以 还 是 值得 考虑 的 方案 。 


我 们 用 包含 数 百 个 基准 测试 的 一 系列 测试 来 评估 Flashcache 的 性 能 ， 但 是 我 们 发 现在 人 
工 模拟 的 工作 负载 下 ， 测 出 有 意义 的 数据 是 非常 困难 的 。 于 是 我 们 得 出 结论 ， 虽 然 并 不 
清楚 Flashcache 通常 对 写 负载 有 多 大 好 处 ， 但 是 对 读 肯定 是 有 帮助 的 。 于 是 它 适 合 这 样 
的 情况 使 用 : 有 大 量 的 读 IUVO， 并 且 工 作 集 比 内 存 大 得 多 。 


除了 实验 室 测 试 ， 我 们 有 一 些 生 产 环境 中 应 用 Flashcache 的 经 验 。 想 到 的 一 个 例子 是 ， 
有 个 4TB 的 数据 库 ， 这 个 数据 库 遇 到 了 很 大 的 复制 延迟 。 我 们 给 系统 加 了 半 个 TB 的 
Virident PCIe 卡 作为 存储 。 然 后 安装 了 Flashcache， 并 且 把 PCIe 卡 作为 绑 定 设 备 的 闪存 
部 分 ， 复 制 速 度 就 翻 了 一 倍 。 


” 当 内 存 卡 用 得 很 满 时 使 用 Flashcache 是 最 经 济 的 ， 因 此 选择 一 张 写 得 很 满 时 其 性 能 不 会 


降低 多 少 的 卡 非常 重要 。 这 就 是 为 什么 我 们 选择 Virident 卡 。 


Flashcache 就 是 一 个 缓存 系统 ， 所 以 就 像 任 何其 他 缓存 一 样 ， 它 也 有 预 热 问题 。 虽 然 预 
热 时 间 可 能 会 非常 长 。 例 如 , 在 我 们 刚才 提 到 的 情况 下 , Flashcache 需要 一 个 星期 的 预 热 ， 
才能 真正 对 性 能 产生 帮助 。 


应 该 使 用 Flashcache 吗 ? 根据 具体 情况 可 能 会 有 所 不 同 ， 所 以 我 们 认为 在 这 一 点 上 ， 如 
果 你 完 得 不 确定 ， 最 好 得 到 专家 的 意见 。 理 解 Flashcache 的 机 制 和 它们 如 何 影响 你 的 数 
据 库 工作 和 集 大 小 是 很 复杂 的 ， 在 数据 库 下 层 (至 少 ) 有 三 层 存储 : 


。 HH, Æ InnoDB 缓冲 池 ， 它 的 大 小 跟 工 作 集 大 小 一 起 可 以 决定 缓存 的 命中 率 。 缓 
存 命中 是 非常 快 的 ， 响 应 时 间 非 常 均匀 。 

© 在 缓冲 池 中 没有 命中 ， 就 会 到 Flashcache 设备 上 去 取 ， 这 就 会 产生 分 布 比较 复杂 的 
啊 应 时 间 。Flashcache 的 缓存 命中 率 由 工作 集 大 小 和 办 存 设 备 大 小 决定 。 从 内 存 上 
命中 比 在 磁盘 上 查找 要 快 得 多 。 

e Flashcache 设备 缓存 也 没有 命中 ， 那 就 得 到 磁盘 上 找 ， 这 也 会 看 到 分 布 相当 均 义 的 
比较 慢 的 响应 时 间 。 


有 可 能 还 有 更 多 层次 ; 例如 ，SAN 或 RAID 控制 器 的 缓存 。 


这 有 一 个 思维 实验 ， 说明 这 些 层 是 如 何 交 互 的 。 很 显然 ， 从 Flashcache 设备 访问 的 响应 
时 间 不 会 像 直接 访问 闪存 设备 那么 稳定 和 高 速 。 但 是 想象 一 下 ， 假 设 有 1TB 的 数据 ， 其 
中 100 GB 在 很 长 一 段 时 间 会 承受 99% 的 IO 操作 。 也 就 是 说 ， 大 部 分 时 候 99% 的 工作 
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集 只 有 100 GB, 


现在 ， 假 设 有 以 下 的 存储 设备 : 一 个 很 大 的 RAID 卷 ， 可 以 执行 1 000 IOPS， 以 及 一 个 
可 以 达到 100 000 IOPS 的 更 小 的 闪存 设备 。 闪 存 设备 不 足以 存放 所 有 的 数据 一 一 假设 只 
有 128 GB 一 一 因此 单独 使 用 闪存 不 是 一 种 可 能 的 选择 。 如 果 用 闪存 设备 做 Flashcache, 
就 可 以 期 望 缓存 命中 远 远 快 于 磁盘 检索 ， 但 Flashcache 整体 比 单独 使 用 闪存 设备 要 慢 。 
我 们 坚持 用 数字 说 话 ， 如 果 90% 的 请 求 落 到 Flashcache 设备 ， 相 当 于 达到 50 000 IOPS 。 


这 个 思维 实验 的 结果 是 什么 呢 ? 有 两 个 要 氮 : 


1. 系统 使 用 Flashcache 比 不 使 用 的 性 能 要 好 很 多 ， 因 为 大 多 数 在 缓冲 池 未 命中 的 页 面 
访问 都 被 缓存 在 闪存 卡 上 ， 相 对 于 磁盘 可 以 提供 快 得 多 的 访问 速度 。(99% 的 工作 
集 可 以 完全 放 在 闪存 卡 上 。) 

2. Flashcache 设备 上 有 90% 的 命中 率 意 味 着 有 10% 没有 命中 。 因 为 底层 的 磁盘 只 能 提 
供 1 000 IOPS， 因 此 整个 Flashcache 设备 可 以 支持 10 000 的 IOPS。 为 了 明白 为 什 
么 是 这 样 的 ， 想 象 一 下 如 果 我 们 要 求 不 止 于 此 会 发 生 什 么 : 10% 的 I/O 操作 在 缓存 
中 没有 命中 而 落 到 了 RAID 卷 上 ， 则 肯定 要 求 RAID 卷 提 供 超 过 1 000 IOPS, 很 显 
然 是 没 法 处 理 的 。 因 此 ， 即 使 Flashcache 比 闪存 卡 慢 ， 系 统 作 为 一 个 整体 仍然 受 限 
于 RAID 卷 ， 不止 是 闪存 卡 或 Flashcache。 


归根 到 底 ，Flashcache 是 否 合适 是 一 个 复杂 的 决定 ， 涉 及 的 因素 很 多 。 一 般 情况 下 ， 它 
似乎 最 适合 以 读 为 主 的 VO 密集 型 负载 ， 并 且 工 作 集 太 大 ， 用 内 存 优化 并 不 经 济 的 情况 。 


9.4.9 优化 固态 存储 上 的 MySQL 

如 果 在 内 存 上 运行 MySQL， 有 一 些 配置 参数 可 以 提供 更 好 的 性 能 。InnoDB 的 默认 配置 
从 实践 来 看 是 为 硬盘 驱动 器 定制 的 ,而 不 是 为 固态 硬盘 定制 的 。 不 是 所 有 版 本 的 InnoDB 
都 提供 同样 等 级 的 可 配置 性 。 尤 其 是 很 多 为 提升 内 存 性 能 设计 的 参数 首先 出 现在 Percona 
Server 中 ， 尽 管 这 些 参数 很 多 已 经 在 Oracle 版 本 的 InnoDB 中 实现 ， 或 者 计划 在 未 来 的 
版 本 中 实现 。 


改进 包括 : 


增加 InnoDB 的 I/O 容量 
内 存 比 机 械 硬盘 支持 更 高 的 并 发 量 ， 所 以 可 以 增加 读 写 1/0 线程 数 到 10 或 15 来 获 
得 更 好 的 结果 。 也 可 以 在 2 000 ~ 20 000 范围 内 调整 innodb_ io_capacity 选项 ， 这 
要 看 设备 实际 上 能 支撑 多 大 的 IOPS。 尤其 是 对 Oracle 官方 的 InnoDB 这 个 很 有 必要 ， 
内 部 有 更 多 算法 依赖 于 这 个 设置 。 
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让 InnoDB 日 志 文件 更 大 


即使 最 近 版 本 的 InnoDB 中 改进 了 崩溃 恢复 算法 ， 也 不 应 该 把 磁盘 上 的 日 志文 件 调 
得 太 大 ， 因 为 崩溃 恢复 时 需要 随机 1/0 访问 ， 会 导致 恢复 需要 很 长 一 段 时 间 。 闪 存 
存储 让 这 个 过 程 快 很 多 ， 所 以 可 以 设置 更 大 的 InnoDB 日 志文 件 ， 以 帮助 提升 和 稳 
定性 能 。 对 于 Oracle 官方 的 InnoDB， 这 个 设置 尤其 重要 ， 它 维持 一 个 持续 的 脏 页 
刷新 比例 有 点 麻烦 ， 除 非 有 相当 大 的 日 志文 件 一 一 4GB 或 者 更 大 的 日 志文 件 ， 在 写 
的 时 候 对 服务 器 来 说 是 个 不 错 的 选择 。Percona Server 和 MySQL 5.6 支持 大 于 4GB 
的 日 志文 件 。 


把 一 些 文件 从 闪存 转移 到 RAID 


除了 把 InnoDB 日 志文 件 设置 得 更 大 ， 把 日 志文 件 从 数据 文件 中 拿 出 来 ， 单 独 放 在 
一 个 带 有 电池 保护 写 缓存 的 RAID 组 上 而 不 是 固态 设备 上 ， 也 是 个 好 主意 。 这 么 做 
有 几 个 原因 。 一 个 原因 是 日 志文 件 的 IO 类 型 ， 在 闪存 设备 上 不 比 在 这 样 一 个 RAID 
组 上 要 快 。InnoDB 写 日 志 是 以 512 字 市 为 单位 的 顺序 IO SPA, FFARR T ii 
复 会 顺序 读 取 ， 其 他 时 候 绝 不 会 去 读 。 这 样 的 1/0 操作 类 型 用 内 存 设备 是 很 浪费 的 。 
并 且 把 小 的 写 入 操作 从 闪存 转移 到 RAID 卷 也 是 个 好 主意 ， 因 为 很 小 的 写 人 会 增加 
闪存 设 备 的 写 放 大 因子 ， 会 影响 一 些 设备 的 使 用 寿命 。 大 小 写 操作 混合 到 一 起 也 会 
引起 某 些 设备 延 时 的 增加 。 

基于 相同 的 原因 ， 有 时 把 二 进 制 日 志文 件 转移 到 RAID 卷 也 会 有 好 处 。 并 且 你 可 
能 会 认为 ibdatal 文件 也 适合 放 在 RAID 4 E, AA ibdatal 文件 包含 双 写 缓冲 
(Doublewrite Buffer) 和 插入 缓冲 (Insert Buffer) ， 尤 其 是 双 写 缓冲 会 进行 很 多 重复 
GA. Æ Percona Server 中 ， 可 以 把 双 写 缓冲 从 ibdatal 文件 中 拿 出 来 ， 单 独 存放 到 
一 个 文件 ， 然 后 把 这 个 文件 放 在 RAID 卷 上 。 

还 有 另 一 个 选择 : 可 以 利用 Percona Server 的 特性 ， 使 用 4KB 的 块 写 事务 日 志 ， 而 
不 是 512 字 节 。 因 为 这 会 匹配 大 部 分 内 存 本 身 的 块 大 小 ， 所 以 可 以 获得 更 好 的 效果 。 
所 有 的 上 述 建议 是 对 特定 硬件 而 言 的 ， 实 际 操作 的 时 候 可 能 会 有 所 不 同 ， 所 以 在 大 
规模 改动 存储 布局 之 前 要 确保 已 经 理解 相关 的 因素 一 一 并 辅 以 适当 的 测试 。 


禁用 预 读 
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预 读 通 过 通知 和 预测 读 取 模 式 来 优化 设备 的 访问 ， 一 旦 认为 某 些 数据 在 未 来 需要 被 
访问 到 ， 就 会 从 设备 上 读 取 这 些 数据 。 实 际 上 在 InnoDB 中 有 两 种 类 型 的 预 读 ， 我 
们 发 现在 多 种 情况 下 的 性 能 问题 ， 其 实 都 是 预 读 以 及 它 的 内 部 工作 方式 造成 的 。 在 
许多 情况 下 开销 比 收 益 大 ， 尤 其 是 在 内 存 存 储 ， 但 我 们 没有 确 沿 的 证 据 或 指导 ， 禁 
用 预 读 究竟 可 以 提高 多 少 性 能 。 

TE MySQL 5.1 的 InnoDB Plugin 中，MySQL 禁用 了 所 谓 的 “随机 预 读 ”， 然 后 在 
MySQL 5.5 又 重新 启用 了 它 ， 可 以 在 配置 文件 用 一 个 参数 配置 。Percona Server 能 
让 你 在 旧版 本 里 也 一 样 可 以 配置 为 random (随机 ) 或 linear read-ahead (线性 预 读 )。 
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配置 InnoDB 刷新 算法 
这 决定 InnoDB 什么 时 候 、 刷 新 多 少 、 刷 新 哪些 页 面 ， 这 是 个 非常 复杂 的 主题 ， 这 
里 我 们 没有 足够 的 篇 幅 来 讨论 这 些 具体 的 细节 。 这 也 是 个 研究 比较 活跃 的 主题 ， 并 
且 实 际 上 在 不 同 版 本 的 InnoDB 和 MySQL 中 有 多 种 有 效 的 算法 。 
标准 InnoDB 算法 没有 为 闪存 存储 提供 多 少 可 配置 性 ， 但 是 如 果 用 的 是 Percona 
XtraDB (包含 在 Percona Server 和 MariaDB 中 ) ， 我 们 建议 设置 innodb adaptive _ 
checkpoint 选项 为 keep_average， 不 要 用 默认 值 estimate。 这 可 以 确保 更 持续 的 
性 能 ， 并 且 避 免 服 务 器 抖动 ， 因 为 estimate 算法 会 在 闪存 存储 上 引起 抖动 。 我 们 专 
门 为 闪存 存储 开发 了 keep_average， 因 为 我 们 意识 到 对 于 闪存 设备 ， 把 希望 操作 的 
AE IO 推 到 设备 上 ， 并 不 会 引起 瓶颈 或 发 生 拌 动 。 | 
另外 ， 建 议 为 闪存 设备 设置 innodb flush neighbor pages = 0。 这 样 可 以 避免 
InnoDB 尝试 查找 相 邻 的 脏 页 一 起 刷 写 。 这 个 算法 可 能 会 导致 更 大 块 的 写 、 更 高 的 延 
迟 ， 以 及 内 部 竞争 。 在 闪存 存储 上 这 完全 没 必要 ， 也 不 会 有 什么 收益 ， 因 为 相 邻 的 
页 面 单独 刷新 不 会 冲击 性 能 。 

禁用 双 写 缓冲 的 可 能 
相对 于 把 双 写 缓存 转移 到 闪存 设备 ， 可 以 考虑 直接 关闭 它 。 有 些 厂 商 声 称 他 们 的 设 
备 支持 16KB 的 原子 写 入 ， 使 得 双 写 缓冲 成 为 多 余 的 。 如 果 需 要 确保 整个 存储 系统 
被 配置 得 可 以 支持 16KB 的 原子 写 入 ， 通 常 需要 0_DIRECT 和 XFS 文件 系统 。 
没有 确凿 的 证 据 表 明 原 子 操作 的 说 法 是 真实 的 ， 但 由 于 闪存 存 储 的 工作 方式 ， 我 们 
相信 写 数据 文件 发 生 页 面 写 一 部 分 的 情况 是 大 大 减少 的 ， 并 且 这 个 收益 在 内 存 设备 
上 比 在 传统 磁盘 上 要 高 得 多 ， 禁 用 双 写 缓冲 在 闪存 存储 上 可 以 提高 MySQL 整体 性 
能 差不多 50% ， 尽 管 我 们 不 知道 这 是 不 是 100% 安全 的 ， 但 是 你 可 以 考虑 下 这 么 做 。 

限制 插入 缓冲 大 小 
插入 缓冲 (在 新 版 InnoDB 中 称 为 变更 缓冲 (Change Buffer)) 设计 来 用 于 减少 当 更 
新 行 时 不 在 内 存 中 的 非 唯一 索引 引起 的 随机 W/O。 在 硬盘 驱动 器 上 ,减少 随机 IO 可 
以 带 来 巨大 的 性 能 提升 。 对 某 些 类 型 的 工作 负载 ， 当 工作 集 比 内 存 大 很 多 时 ， 差 异 
可 能 达到 近 两 个 数量 级 。 插 入 缓冲 在 这 类 场景 下 就 很 有 用 。 
然而 ， 对 闪存 就 没有 必要 了 。 闪 存 上 随机 LO 非常 快 ， 所 以 即使 完全 禁用 插入 缓冲 ， 
也 不 会 带 来 太 大 影响 ， 尽 管 如 此 ， 可 能 你 也 不 想 完全 禁用 插入 缓存 。 所 以 最 好 还 是 
启用 ， 因 为 IO 只 是 修改 不 在 内 存 中 的 索引 页 面 的 开销 的 一 部 分 。 对 内 存 设备 而 言 ， 
最 重要 的 配置 是 控制 最 大 允许 的 插入 缓冲 大 小 ， 可 以 限制 为 一 个 相对 比较 小 的 值 ， 
而 不 是 让 它 无 限制 地 增长 ， 这 可 以 避免 消耗 设备 上 的 大 量 空间 ， 并 避免 ibdatal X 
件 变 得 非常 大 的 情况 。 在 本 书写 作 的 时 候 ， 标 准 InnoDB 还 不 能 配置 插入 缓存 的 容 
量 上 限 ， 但 是 在 Percona XtraDB (Percona Server 和 MariaDB 都 包含 XtraDB) 里 可 
LA. MySQL 5.6 里 也 会 增加 一 个 类 似 的 变量 。 
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除了 上 述 的 配置 建议 ， 我 们 还 提出 或 讨论 了 其 他 一 些 内 存 优化 策略 。 然 而 ， 不 是 所 有 的 
策略 都 非常 容易 明白 ， 所 以 我 们 只 是 提 到 了 一 部 分 ， 最 好 自己 研究 在 具体 情况 下 的 好 处 。 
首先 是 InnoDB 的 页 大 小 。 我 们 发 现 了 不 同 的 结果 ， 所 以 我 们 现在 还 没有 一 个 明确 的 建 
议 。 好 消息 是 ， 在 Percona Server 中 不 需要 重 编译 也 能 配置 页 面 大 小 ， 在 MySQL 5.6 中 
这 个 功能 也 可 能 实现 。 以 前 版 本 的 MySQL 需要 重新 编译 服务 器 才能 使 用 不 同 大 小 的 页 
面 ， 所 以 大 部 分 情况 都 是 运行 在 默认 的 16KB 页 面 。 当 页 面 大 小 更 容易 让 更 多 人 进行 实 
验 时 ， 我 们 期 待 更 多 非 标准 页 面 大 小 的 测试 ， 可 能 能 从 中 得 到 很 多 重要 的 结论 。 


另 一 个 提 到 的 优化 是 InnoDB 页 面 校 验 (Checksum) 的 替代 算法 。 当 存储 系统 响应 很 快 时 ， 
校 验 值 计 算 可 能 开始 成 为 1/O 相关 操作 中 显著 影响 时 间 的 因素 ， 并 且 对 某 些 人 来 说 这 个 
计算 可 能 替代 IO 成 为 新 的 瓶颈 。 我 们 的 基准 测试 还 没有 得 出 可 适用 于 普遍 场景 的 结论 ， 
所 以 每 个 人 的 情况 可 能 有 所 不 同 。Percona XtraDB 人 允许 修改 校 验算 法 ，MySQL 5.6 也 有 
了 这 个 功能 。 


可 能 已 经 提醒 过 了 ， 我 们 提 到 的 很 多 功能 和 优化 在 标准 版 本 的 InnoDB 中 是 无 效 的 。 我 
们 希望 并 且 相 信 我 们 引入 Percona Server 和 XtraDB 中 的 改进 点 ， 最 终 将 会 被 广大 用 户 接 
受 。 与 此 同时 ， 如 果 正 使 用 Oracle 官方 MySQL 分 发 版 本 ， 依 然 可 以 对 服务 器 采取 措施 
为 闪存 进行 优化 。 建 议 使 用 innodb file per table, 并 且 把 数据 文件 目录 放 到 闪存 设备 。 
然后 移动 ibdatal 和 日 志文 件 ， 以 及 其 他 所 有 日 志文 件 (二 进 制 日 志 、 复 制 日 志 ， 等 等 )， 
到 RAID 卷 ， 正 如 我 们 之 前 讨论 的 。 这 会 把 随机 I/O 集中 到 闪存 设备 上 ， 然 后 把 大 部 分 
顺序 写 入 的 压力 尽 可 能 转移 出 内 存 ， 因 而 可 以 节省 内 存 空间 并 且 减 少 磨损 。 


另外， 所 有 版 本 的 MySQL 服务 器 ， 都 应 该 确认 超 线程 开启 了 。 当 使 用 内 存 存储 时 ， 这 
有 很 大 的 帮助 ， 因 为 磁盘 通常 不 再 是 瓶颈， 任务 会 更 多 地 从 VO BREA CPU BE. 


9.5 为 备 库 选择 硬件 


为 备 库 选 择 硬件 与 为 主 库 选择 硬件 很 相似 ， 但 是 也 有 些 不 同 。 如 果 正 计划 着 建 一 个 备 库 
做 容 灾 ， 通 常 需要 跟 主 库 差 不 多 的 配置 。 不 管 备 库 是 不 是 仅仅 作为 一 个 主 库 的 备用 库 ， 
都 应 该 强大 到 足以 承担 主 库 上 发 生 的 所 有 写 入 ， 人 额外 的 不 利 因素 是 备 库 只 能 序列 化 囊 行 
执行 。( 下 一 章 有 更 多 关于 这 方面 的 内 容 )。 


备 库 硬件 主要 考虑 的 是 成 本 : 需要 在 备 库 硬件 上 花费 跟 主 库 一 样 多 的 成 本 吗 ? 可 以 把 备 
库 配 置 得 不 一 样 以 便 从 备 库 上 获得 更 多 性 能 吗 ? 如 果 备 库 跟 主 库 工 作 负载 不 一 样 ， 可 以 
从 不 一 样 的 硬件 配置 上 获得 隐 含 的 收益 吗 ? 


这 一 切 都 取决 于 备 库 是 否 只 是 备用 的 ， 你 可 能 希望 主 库 和 备 库 有 相同 的 硬件 和 配置 ， 但 
是 ， 如 霖 只 是 用 复制 作为 扩展 更 多 读 容量 的 方法 ， 那 备 库 可 以 有 多 种 不 同 的 捷径 。 例 如 ， 
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可 能 在 备 库 使 用 不 一 样 的 存储 引 警 ， 并 且 有 些 人 使 用 更 便宜 的 硬件 或 者 用 RAID 0 代替 
RAID 5 或 RAID 10。 也 可 以 取消 一 些 一 致 性 和 持久 性 的 保证 让 备 库 做 更 少 的 工作 。 

这 些 措施 在 大 规模 部 署 的 情况 下 具有 很 好 的 成 本 效益 ， 但 是 在 小 规模 的 情况 下 ， 可 能 只 
会 使 事情 变 得 更 加 复杂 。 在 实践 中 ， 似 乎 大 多 数 人 都 会 选择 以 下 两 种 策略 为 备 库 选 择 硬 
件 : 主 备 使 用 相同 的 硬件 ， 或 为 主 库 购买 新 的 硬件 ， 然 后 让 备 库 使 用 主 库 淘汰 的 老 硬件 。 


在 备 库 很 难 跟 上 主 库 时 ， 使 用 固态 硬盘 有 很 大 的 意义 。 很 好 的 随机 IO 性 能 有 助 于 缓解 
单个 复制 线程 的 影响 。 


9.6 RAID 性 能 优化 


存储 引擎 通常 把 数据 和 索引 都 保存 在 一 个 大 文件 中 ， 这 意味 着 用 RAID (Redundant 
Array of Inexpensive Disks， 磁 盘 匈 余 阵 列 ) 存储 大 量 数据 通常 是 最 可 行 的 方法 生 ””。 


RAID 可 以 帮助 做 元 余 、: 扩 展 存储 容量 、 缓 存 ， 以 及 加 速 。 但 是 从 我 们 看 到 的 一 些 优化 


案例 来 说 ，RAID 上 有 多 种 多 样 的 配置 ， 为 需求 选择 一 个 合适 的 配置 非常 重要 。 


我 们 不 想 覆 盖 所 有 的 RAID 等 级 ， 或 者 深入 细 市 来 分 析 不 同 的 RAID 等 级 分 别 如 何 存储 
数据 。 关 于 这 个 主题 有 很 多 好 资料 ， 在 一 些 书籍 和 在 线 文 档 可 以 找到 ““。 因 此 ， 我 们 专 
注 于 怎样 配置 RAID 来 满足 数据 库 服务 器 的 需求 。 最 重要 的 RAID 级 别 如 下 : 


RAID 0 
如 果 只 是 简单 地 评估 成 本 和 性 能 ，RAID 0 是 成 本 最 低 和 性 能 最 高 的 RAID 配置 (但 
是 ， 如 果 考 虑 数据 恢复 的 因素 ，RAID 0 的 代价 会 非常 高 )。 因 为 RAID 0 没有 元 余 ， 
建议 只 在 不 担心 数据 丢失 的 时 候 使 用 ， 例 如 备 库 或 者 因 某 些 原因 只 是 “一 次 性 ”使 
用 的 时 候 。 典 型 的 案例 是 可 以 从 另 一 台 备 库 轻 易 克 隆 出 来 的 备 库 服务 器 。 再 次 说 明 ， 
RAID 0 没有 提供 任何 元 余 ， 即 使 R 在 RAID 中 表示 元 余 。 实 际 上 ，RAID 0 阵列 的 
损坏 概率 比 单 块 磁盘 要 高 ， 而 不 是 更 低 ! 

RAID I 
RAID 1 在 很 多 情况 下 提供 很 好 的 读 性 能 ， 并 且 在 不 同 的 磁盘 间 元 余数 据 ， 所 以 有 很 
好 的 元 余 性 。RAID 1 ik LEE RAID 0 快 一 些 。 它 非常 适合 用 来 存放 日 志 或 者 类 似 
的 工作 , 因为 顺序 写 很 少 需要 底层 有 很 多 磁盘 (随机 写 则 相反 , 可 以 从 并 发 中 受益 )。 
这 通常 也 是 只 有 两 块 硬盘 又 需要 元 余 的 低 端 服务 器 的 选择 。 


注 12 : 分 区 (看 第 7 章 ) 是 另 一 个 好 办 法 , 因为 它 通 常 把 文件 分 成 多 份 , 你 可 以 放 在 不 同 的 磁盘 上 。 但 是 ， 
相对 于 分 区 ，RAID 对 于 很 大 数据 是 一 个 更 简单 的 解决 方案 。 这 不 需要 你 手动 进行 负载 平衡 或 者 在 
负载 分 布 发 生变 化 时 进行 干预 ， 并 且 可 以 提供 完 余 ， 而 你 不 能 把 分 区 文件 放 在 不 同 的 磁盘 。 

注 13 : 两 个 很 好 的 RAID 学 习 资 源 是 维基 百科 上 的 文章 (http-//en.wikipedia.org/wiki/RAID) 和 AC&NC & 
42. http://www.acnc.com/04_00.html, 
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RAID 0 #0 RAID 1 很 简单 ， 在 软件 中 很 好 实现 。 大 部 分 操作 系统 可 以 很 简单 地 用 软 
件 创建 RAID 0 和 RAID 1, 
[46> RAIDS © 
RAIDS 有 点 吓人 ， 但 是 对 某 些 应 用 ， 这 是 不 可 避免 的 选择 , 因为 价格 或 者 磁盘 数量 ( 例 
如 需要 的 容量 用 RAID 1 无 法 满足 ) 的 原因 。 它 通过 分 布 奇偶 校 验 块 把 数据 分 散 到 
多 个 磁盘 ， 这 样 ， 如 果 任 何 一 个 盘 的 数据 失效 ， 都 可 以 从 奇偶 校 验 块 中 重建 。 但 如 
果 有 两 个 磁盘 失效 了 ， 则 整个 卷 的 数据 无 法 恢复 。 就 每 个 存储 单元 的 成 本 而 言 ， 这 
是 最 经 济 的 元 余 配 置 ， 因 为 整个 阵列 只 额外 消耗 了 一 块 磁盘 的 存储 空间 。 
在 RAID 5 上 随机 写 是 昂贵 的 ， ie esa Me ea 
以 计算 和 存储 校 验 位 。 如 果 写 操作 是 顺序 的 ， 那 么 执行 起 来 会 好 一 些 ， 或 者 有 很 
多 物理 磁盘 也 行 。 另 外 说 一 下 ， 随 机 读 和 顺序 读 都 能 很 好 地 在 RAID 5 5 下 Te, 
RAID 5 用 作 存 放 数 据 或 者 日 志 是 一 种 可 接受 的 选择 ， 或 者 是 以 读 为 主 的 业务 ， 不 需 
要 消耗 太 多 写 IO 的 场景 。 
RAID 5 最 大 的 性 能 消耗 发 生 在 磁盘 失效 时 ， 因 为 数据 需要 重 分 布 到 其 他 磁盘 。 这 会 
严重 影响 性 能 ,如 果 有 很 多 磁盘 会 更 糟糕 。 如 果 在 重建 数据 时 还 保持 服务 器 在 线 服务 ， 
那 就 别 指 望 重建 的 速度 或 者 阵列 的 性 能 会 好 。 如 果 使 用 RAID 5， 最 好 有 一 些 机 制 可 
以 做 故障 迁移 ， 当 有 问题 的 时 候 让 一 台 机 器 不 再 提供 服务 ， 另 一 台 接 管 。 不 管 怎 样 ， 
对 系统 做 一 下 故障 恢复 时 的 性 能 测试 很 有 必要 ， 这 样 就 可 以 知道 故障 恢复 时 的 性 能 
表现 到 底 如 何 。 如 果 一 块 磁盘 失效 ，RAID 组 在 重建 过 程 中 ， 会 导致 磁盘 性 能 下 降 ， 
使 用 这 个 存储 的 服务 器 整体 性 能 可 能 会 不 成 比例 地 被 影响 到 慢 两 倍 到 五 倍 。 
RAID 5 的 奇偶 校 验 块 会 带 来 额外 的 性 能 开销 ， 这 会 限制 它 的 可 扩展 性 ， 超 过 10 块 
硬盘 后 RAID 5 就 不 能 很 好 地 扩展 ，RAID 缓存 也 会 有 些 问题 。RAID 5 的 性 能 严重 
依赖 于 RAID 控制 器 的 缓存 ， 这 可 能 跟 数 据 库 服务 器 需要 的 缓存 冲突 了 。 我 们 稍 后 
会 讨论 缓存 。 
RẸ RAID 5 有 这 么 多 问题 ， 但 有 个 有 利 因 素 是 它 非 常 受 欢 迎 。 因 此 ，RAID ile 
往往 针对 RAID 5 做 了 高 度 优化 ， 虽 然 有 理论 极限 ， 但 是 智能 控制 器 充分 利用 高 速 
缓存 使 得 RAID 5 在 某 些 场景 下 有 时 可 以 达到 接近 RAID 10 的 性 能 。 实 际 上 这 可 能 
反映 了 RAID 10 的 控制 器 缺少 很 好 的 优化 ,但 不 管 是 什么 原因 , 这 就 是 我 们 所 见 到 的 。 
RAID 10 
RAID 10 对 数据 存储 是 个 非常 好 的 选择 。 它 由 分 片 的 镜像 组 成 ， 所 以 对 读 和 写 都 有 
良好 的 扩展 性 。 相 对 于 RAID 5， 重 建 起 来 很 简单 ， 速 度 也 很 快 。 另 外 RAID 10 还 
可 以 在 软件 层 很 好 地 实现 。 
当 失去 一 块 磁盘 时 ， 性 能 下 降 还 是 比较 明显 的 ， 因 为 条 带 可 能 成 为 瓶颈 *“。 性 能 可 
注 14 : 因为 读 取 并 不 需要 写 校 验 位 。 一 一 译 者 注 


注 15 : 意思 是 损失 一 块 盘 ， 读 取 的 时 候 本 来 可 以 从 相互 镜像 的 两 块 盘 中 同时 读 ， 少 了 一 块 盘 就 只 能 从 忆 
一 块 镜像 盘 上 去 读 了 。 一 一 译 者 注 
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能 下 降 为 50%， 具 体 要 看 工作 负载 。 需 要 注意 的 一 件 事 是 ，RAID 控制 器 对 RAID 
10 采 用 了 一 种 “串联 镜像 ”的 实现 。 这 不 是 最 理想 的 实现 ,由 于 条 带 化 的 缺点 是 “最 
经 常 访问 的 数据 可 能 仅 被 放置 在 一 对 机 械 磁盘 上 ， 而 不 是 分 布 很 多 份 ,” 所 以 可 能 会 
遇 到 性 能 不 佳 的 情况 。 
RAID 50 | 

RAID 50 由 条 带 化 的 RAID5 组 成 ， 如 果 有 很 多 盘 的 话 ， 这 可 能 是 RAID 5 的 经 济 性 
和 RAID 10 的 高 性 能 之 间 的 一 个 折 中 。 它 的 主要 用 处 是 存放 非常 庞大 的 数据 集 ， 例 
如 数据 仓库 或 者 非常 庞大 的 OLTP 系统 。 


表 9-2 是 多 种 RAID 配置 的 总 结 
表 9-2; RAID 等 级 之 间 的 比较 


等 级 ”概要 Re 8H Kk SR 

RAID 0 便宜 ， 快 速 ， 危 险 No N Yes Yes 

RAID 1 高 速 读 ， 简 单 ， 安 全 Yes 2 (通常 ) Yes No 

RAID 5 安全 (速度 ) 成 本 折 中 Yes N + 1 Yes 依赖 于 最 慢 的 盘 
RAID 10 昂贵 ， 高 速 ， 安 全 Yes 2N Yes Yes 


RAID 50 ”为 极 大 的 数据 存储 服务 Yes 2(N+1) Yes Yes | 


9.6.1 RAID 的 故障 转移 、 恢 复 和 镜像 


RAID 配置 (BRT RAID 0) 都 提供 了 元 余 。 这 很 重要 ， 但 很 容易 让 人 低估 磁盘 同时 发 生 
故障 的 可 能 性 。 千 万 不 要 认为 RAID 能 提供 一 个 强 有 力 的 数据 安全 性 保证 六 '。 


RAID 不 能 消除 甚至 减少 备份 的 需求 。 当 出 现 问 题 的 时 候 ， 恢 复 时 间 要 看 控制 器、RAID 
等 级 、 阵 列 大 小 、 硬 盘 速 度 ， 以 及 重建 阵列 时 是 否 需 要 保持 服务 器 在 线 。 


硬盘 在 完全 相同 的 时 间 损 坏 是 有 可 能 的 。 例 如 ， 峰 值 功率 或 过 热 ， 可 以 很 容易 地 废 掉 两 
个 或 更 多 的 磁盘 。 然 而 ,更 常见 的 是 ， 两 个 密切 相关 的 磁盘 “"” 出现 故 障 。 许 多 这 样 的 隐 
患 可 能 被 忽视 了 。 一 个 常见 的 情况 是 ， 很 少 被 访问 的 数据 ， 在 物理 媒介 上 损坏 了 。 这 可 
能 几 个 月 都 检测 不 到 ， 直 到 尝试 读 取 这 份 数 据 ， 或 为 一 个 硬盘 也 失效 了 ， 然 后 RAID 控 
制 器 尝试 使 用 损坏 的 数据 来 重建 阵列 。 越 大 的 硬盘 驱动 器 ， 越 容易 发 生 这 种 情况 。 


这 就 是 为 什么 做 RAID 阵列 的 监控 如 此 重要 。 大 部 分 控制 器 提供 了 一 些 软 件 来 报告 阵列 

的 状态 ， 并 且 需 要 持续 跟踪 这 些 状 态 ， 因 为 不 这 么 做 可 能 就 会 忽略 了 驱动 器 失效 。 你 可 
能 丧失 恢复 数据 和 发 现 问题 的 时 机 ， 当 第 二 块 硬盘 损坏 时 ， 已 经 晚 了 。 因 此 应 该 配置 一 
个 监控 系统 来 提醒 硬盘 或 者 RAID 卷发 生 降 级 或 失效 了 。 


%16: 尤其 是 SSD 盘 ， 同 时 损坏 的 可 能 性 是 比较 大 的 。 译 者 注 
1217: 例如 一 份 数据 的 两 个 镜像 就 在 这 两 个 盘 上 。 一 一 译 者 注 
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对 阵列 积极 地 进行 定期 一 致 性 检查 ， 可 以 减少 潜在 的 损坏 风险 。 某 些 控 制 器 有 后 台 巡 检 
(Background Patrol Read) 功能 ， 当 所 有 驱动 器 都 在 线 服务 时 ， 可 以 检查 媒介 是 否 有 损 
坏 并 且 修 复 ， 也 可 以 帮助 避免 此 类 问题 的 发 生 。 在 恢复 时 ， 非 常 大 型 的 阵列 可 能 会 降低 
检查 速度 ， 所 以 创建 大 型 阵列 时 一 定 要 确保 制定 了 相应 的 计划 。 


也 可 以 添加 一 个 热 备 盘 ， 这 个 盘 一 般 是 未 使 用 状态 ， 并 且 配 置 为 备用 状态 ， 有 硬盘 坏 了 
之 后 控制 器 会 自动 把 这 块 盘 恢 复 为 使 用 状态 。 如 果 依 赖 于 每 个 服务 器 的 可 用 性 “， 这 是 
一 个 好 主意 。 对 只 有 少数 硬盘 驱动 器 的 服务 器 ， 这 么 做 是 很 昂贵 的 ， 因 为 一 个 空闲 磁盘 
的 成 本 比例 比较 高 ， 但 如 果 有 多 个 磁盘 ， 而 不 设 一 个 热 备 盘 ， 就 是 思 剧 的 做 法 。 请 记 住 ， 
更 多 的 磁盘 驱动 器 会 让 发 生 故 障 的 概率 迅速 增加 。 


除了 监控 硬盘 失效 ， 还 应 该 监控 RAID 控制 器 的 电池 备份 单元 以 及 写 缓存 策略 。 如 
果 电 池 失 效 ， 大 部 分 控制 器 默认 设置 会 禁用 写 缓 存 ， 把 缓存 策略 从 WriteBack KH 
WriteThrough。 这 可 能 导致 服务 器 性 能 下 降 。 很 多 控制 器 会 通过 一 个 学 习 过 程 周 期 性 地 
对 电池 充 放电 ， 在 这 个 过 程 中 缓存 是 被 禁用 的 。RAID 控制 器 管理 工具 应 该 可 以 浏览 和 
配置 电池 充 放电 计划 ， 不 会 让 人 措手不及 。 


也 许 希望 把 缓存 策略 设 为 WriteThrough 来 测试 系统 , 这 样 就 可 以 知道 系统 性 能 的 期 望 值 。 
也 许 需要 计划 电池 充 放电 的 周期 ， 安 排 在 晚上 或 者 周末 ， 重 新 配置 服务 器 修改 innodb_ 
flush_log_at_trx_commit 和 sync_binlog 变量 , 或 者 在 电池 充 放电 时 简单 地 切换 到 另 一 
ARS i. 


9.6.2 平衡 硬件 RAID 和 软件 RAID 
操作 系统 、 文 件 系统 和 操作 系统 看 到 的 驱动 器 数量 之 间 的 相互 作用 可 以 是 复杂 的 。Bug、 
限制 或 只 是 错误 配置 ， 都 可 能 会 把 性 能 降低 到 远 远 低 于 理论 值 。 


MRA 10 块 硬盘 ， 理 想 中 应 该 能 够 承受 10 个 并 行 的 请 求 ， 但 有 时 文件 系统 、 操 作 系 统 
X RAID 控制 右 会 把 请 求 序 列 化 。 面 对 这 个 问题 一 个 可 行 的 办 法 是 尝试 不 同 的 RAID 配 
置 。 例 如 ， 如 采 有 10 个 磁盘 ， 并 且 必 须 使 用 镜像 元 余 ， 性 能 也 要 好 ， 可 以 考虑 下 面 几 
种 配置 : 


© 配置 一 个 包含 五 个 镜像 对 (RAID 1) 的 RAID 10 卷 ”。 操 作 系 统 只 会 看 到 一 个 很 大 
的 单独 的 硬盘 卷 ，RAID 控制 器 会 隐藏 底层 的 10 块 硬盘 。 
e 在 RAID 控制 器 中 配置 五 个 RAID 1 镜像 对 ， 然 后 让 操作 系统 使 用 五 个 卷 而 不 是 一 


a 





18: 就 是 每 个 服务 器 上 的 数据 都 会 被 业务 使 用 ， 没 有 机 器 作为 备用 的 。 译 者 注 
注 19 : 就 是 先 做 五 个 两 块 盘 的 RAID 1， 然 后 再 把 五 个 镜像 对 做 成 RAID 0， 形 成 RAID 10。 一 -一 译 者 注 
注 20 : 就 是 做 五 个 两 块 盘 的 RAID 1， 然 后 交 给 操作 系统 使 用 。 一 -一 译 者 注 
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。 ERAD 控制 器 中 配置 五 个 RAID 1 镜像 对 ， 然 后 使 用 软件 RAD 0 把 五 个 卷 做 成 一 
个 逻辑 卷 ， 通 过 部 分 硬件 、 部 分 软件 的 实现 方式 ， 有 效 地 实现 了 RAID 10, *” 


哪个 选项 是 最 好 的 ? 这 依赖 于 系统 中 所 有 的 组 件 如 何 相互 协作 。 不 同 的 配置 可 能 获得 相 
同 的 结果 ， 也 可 能 不 同 。 


我 们 已 经 提醒 了 多 种 配置 可 能 导致 串 行 化 。 例 如 ，ext3 文件 系统 每 个 inode 有 一 个 单一 
的 Mutex， 所 以 当 InnoDB 是 配置 为 innodb flush method=0 DIRECT (常见 的 配置 ) 时 ， 
在 文件 系统 会 有 inode 级 别 的 锁定 。 这 使 得 它 不 可 能 对 文件 进行 IO 并 发 操作 ， 因 而 系 
统 表现 会 远 低 于 其 理论 上 的 能 


我 们 见 过 的 另 一 个 案例 ， 请 求 串 行 地 发 送 到 一 个 10 块 盘 的 RAID10 卷 中 的 每 个 设备 ,使 
用 ReiserFS 文件 系统 ，InnoDB 打开 了 innodb file per table 4m. Bini RAID 
1 的 基础 上 用 软件 RAID 0 做 成 RAID 10 的 方式 ， 获 得 了 五 倍 多 的 吞吐 ， 因 为 存储 系统 
开始 表现 出 五 个 硬盘 同时 工作 的 特性 ， 而 不 再 是 一 个 了 。 造 成 这 种 情况 的 是 一 个 已 经 被 
修复 的 Bug， 但 是 这 是 一 个 很 好 的 例证 ， 说 明 这 类 事情 可 能 发 生 。 


串 行 化 可 能 发 生 在 任何 的 软件 或 硬件 堆栈 层 。 如 果 看 到 这 个 问题 发 生 了 ， 可 能 需要 更 改 
文件 系统 、 升 级 内 核 、 暴 露 更 多 的 设备 给 操作 系统 ， 或 使 用 不 同 的 软件 或 硬件 RAID 组 
合 方式 。 应 该 检查 你 的 设备 的 并 发 性 以 确保 它 确实 是 在 做 并 发 IO (本 章 稍 后 有 更 多 关 
于 这 个 话题 的 内 容 )。 


最 后 ， 当 准备 上 线 一 种 新 服务 器 时 ， 不 要 忘 了 做 基准 测试 ! 这 会 帮助 你 确认 能 获得 所 期 
望 的 性 能 。 例 如 ， 若 一 个 硬盘 驱动 器 每 秒 可 以 做 200 个 随机 读 ， 一 个 有 8 个 硬盘 驱动 器 
的 RAID 10 卷 应 该 接近 每 秒 1 600 个 随机 读 。 如 果 观 察 到 的 结果 比 这 个 少 得 多 ， 比 如 说 
每 秒 500 个 随机 读 ， 就 应 该 研究 下 哪里 可 能 有 问题 了 。 确 保 基准 测试 对 IO 子 系统 施加 
TIR MySQL 一 样 的 方式 的 压力 一 一 例如 ， 使 用 O_DIRECT 标记， 并 且 如 果 使 用 没有 打开 
innodb_file_per_table 选项 的 InnoDB， 要 用 一 个 单一 的 文件 测试 VO 性 能 。 通 常 可 以 
使 用 sysbench 来 验证 新 的 硬件 设置 都 是 正确 的 。 | 


9.6.3 RAID 配置 和 缓存 

配置 RAID 控制 器 通常 有 几 种 方法 ， 一 是 可 以 在 机 器 局 动 时 进入 自 带 的 设置 工具 ， 或 从 
命令 行 申 运行。 虽然 大 多 数控 制 器 提供 了 很 多 选项 ， 但 其 中 有 两 个 是 我 们 特别 关注 的 ， 
一 是 条 带 化 阵列 的 块 大 小 (Chunk Size) ， 还 有 就 是 控制 器 板 载 缓存 (RA RAID BF, 
我 们 使 用 术语 )。 


注 21 : AH RAD 让 不 支持 直接 做 RAID 10， 只 能 做 成 几 组 RAID 1， 然 后 由 操作 系统 LVM 再 做 RAID 0, 
KAKA RAD 10。 一 一 译 者 注 
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RAID 条 市 块 大 小 
最 佳 条 带 块 大 小 和 具体 工作 负载 以 及 硬件 息息相关 。 从 理论 上 讲 ， 对 随机 I/O 来 说 更 大 
的 块 更 好 ， 因 为 这 意味 着 更 多 的 读 取 可 以 从 一 个 单一 的 驱动 器 上 满足 。 


为 什么 会 是 这 样 ? 在 工作 负载 中 找 出 一 个 典型 的 随机 IO 操作 ， 如 果 条 带 的 块 大 小 足够 
大 ， 至 少 大 到 数据 不 用 跨越 块 的 边界 ， 就 只 有 单个 硬盘 需要 参与 读 取 。 但 是 ， 如 果 块 大 
小 比 要 读 取 的 数据 量 小 ， 就 没有 办 法 避免 多 个 硬盘 参与 读 取 。 


这 只 是 理论 上 的 观点 。 在 实践 中 ， 许 多 RAID 控制 器 在 大 条 带 下 工作 得 不 好 。 例 如 ， 控 
制 器 可 能 用 缓存 中 的 缓存 单元 大 小 作为 块 大 小 ， 这 可 能 有 浪费 。 控 制 器 也 可 能 把 块 大 小 、 
缓存 大 小 、 读 取 单 元 的 大 小 (在 一 个 操作 中 读 取 的 数据 量 ) 匹配 起 来 。 如 果 读 的 单位 太 大 ， 
RAID 缓存 可 能 不 太 有 效 , 最 终 可 能 会 读 取 比 真正 需要 的 更 多 的 数据 , 即使 是 微小 的 请 求 。 


当然 ， 在 实践 中 很 难 知道 是 否 有 数据 会 跨越 多 个 驱动 器 。 即 使 块 大 小 为 16 KB, 5 
InnoDB 的 页 大 小 相 匹 配 ， 也 不 能 让 所 有 的 读 取 对 齐 16 KB 的 边界 。 文 件 系 统 可 能 会 把 
文件 分 成 片段 ， 每 个 片段 的 大 小 通常 与 文件 系统 的 块 大 小 对 齐 ， 大 部 分 文件 系统 的 块 大 
小 为 底 B。 一 些 文件 系统 可 能 更 聪明 ， 但 不 应 该 指望 它 。 


可 以 配置 系统 以 便 从 应 用 到 底层 存储 所 有 的 块 都 对 齐 : InnoDB 的 块 、 文 件 系 统 的 
H, LVM, 2X fa, RAID 条 带 、 磁 盘 扁 区 。 我 们 的 基准 测试 表明 ， 当 一 切 都 对 齐 
时 ， 随 机 读 和 随机 写 的 性 能 可 能 分 别提 高 15% 和 23%。 对 齐 一 切 的 精密 技术 太 特 殊 
了 ， 无 法 在 这 细 说 ， 但 其 他 很 多 地 方 有 很 多 不 错 的 信息 ， 包 括 我 们 的 博客 http://www. 


mysqlperformanceblog.com. 


RAID 缓存 
RAID 缓存 就 是 物理 安装 在 RAID 控制 器 上 的 (相对 来 说 ) 少量 内 存 。 它 可 以 用 来 缓冲 
硬盘 和 主机 系统 之 间 的 数据 。 下 面 是 RAD 卡 使 用 缓存 的 几 个 原因 : 


缓存 读 取 
控制 器 从 磁盘 读 取 数据 并 发 送 到 主机 系统 后 ， 通 过 缓存 可 以 存储 读 取 的 数据 ， 如 果 
将 来 的 请 求 需要 相同 的 数据 ， 就 可 以 直接 使 用 而 无 须 再 次 去 读 盘 。 
这 实际 上 是 RAID 缓存 一 个 很 精 糕 的 用 法 。 为 什么 呢 ? 由 于 操作 系统 和 数据 库 服务 
器 有 自己 更 大 得 多 的 缓存 。 如 果 数 据 在 这 些 上 层 缓存 中 命中 了 ，RAID 缓存 中 的 数 
据 就 不 会 被 使 用 。 相 反 ， 如 果 上 层 的 缓存 没有 命中 ， 就 有 可 能 在 RAID 缓存 中 命中 ， 
但 这 个 概率 是 微乎其微 的 。 因 为 RAID 缓存 要 小 得 多 ， 几 乎 肯定 会 被 刷新 掉 ， 被 其 
他 数据 填 上 去 了 。 无 论 哪 种 方式 ， 缓 冲 读 都 是 浪费 RAID 缓存 的 事 。 
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缓存 预 读 数据 | 
如 果 RAID 控制 器 发 现 连续 请 求 的 数据 ， 可 能 会 决定 做 预 读 操作 一 一 就 是 预先 取出 
估计 很 快 会 用 到 的 数据 。 在 数据 被 请 求 之 前 ， 必 须 有 地 方 放 这 些 数据 。 这 也 会 使 用 
RAID 缓存 来 放 。 预 读 对 性 能 的 影响 可 能 有 很 大 的 不 同 ， 应 该 检查 确保 预 读 确实 有 
帮助 。 如 果 数 据 库 服 务 器 做 了 自己 的 智能 预 读 (例如 InnoDB 的 预 读 ) RAID 控制 
器 的 预 读 可 能 就 没有 帮助 ， 甚 至 可 能 会 干扰 所 有 重要 的 缓冲 和 同步 写 和 人。 

Bb BX | 
RAID 控制 器 可 以 在 高 速 缓存 里 缓冲 写 操作 ， 并 且 一 段 时 间 后 再 写 到 硬盘 。 这 样 做 
有 双重 的 好 处 : 首先 ， 可 以 快 得 多 地 返回 给 主机 系统 写 “ 成 功 ”的 信号 ， 远 远 比 写 
入 到 物理 磁盘 上 要 快 ; 其 次 ， 可 以 通过 积累 写 操作 从 而 更 有 效 地 批量 操作 兰 2 。 

内 部 操作 
某 些 RAID 的 操作 是 非常 复杂 的 一 一 尤其 是 RAID 5 的 写 人 操作 ,其 中 要 计算 校 验 位 ， 
用 来 在 发 生 故 障 时 重建 数据 。 控 制 器 做 这 类 内 部 操作 需要 使 用 一 些 内 存 。 
这 也 是 RAID 5 在 一 些 RAID 控制 器 上 性 能 差 的 原因 : 为 了 好 的 性 能 需要 读 取 大 量 
数据 到 内 存 。 有 些 控制 器 不 能 较 好 地 平衡 缓存 写 和 RAID 5 校 验 位 操作 所 需要 的 内 存 。 


一 般 情况 下 ，RAID 控制 器 的 内 存 是 一 种 稀缺 资源 ， 应 该 尽量 用 在 刀刃 上 。 缓 存 读 取 通 
常 是 一 种 浪费 ， 但 是 缓冲 写 入 是 加 速 IO 性 能 的 一 个 重要 途径 。 许 多 控制 器 可 以 选择 
如 何 分 配 内 存 。 例 如 ， 可 以 选择 有 多 少 缓存 用 于 写 入 和 多 少 用 于 读 取 。 对 于 RAID 0、 
RAID 1 和 RAID 10， 应 该 把 控制 器 缓存 100% 分 配给 写 和 信用。 对 于 RAID 5， 应 该 保留 
一 些 内 存 给 内 部 操作 。 通 常 这 是 正确 的 建议 ， 但 并 不 总 是 适用 一 一 不 同 的 RAID 卡 需 要 
不 同 的 配置 。 | 





当 正 在 用 RAID 缓存 缓冲 写 和 人 时， 许多 控制 器 可 以 配置 延迟 写 入 多久 时 间 (例如 一 秒 钟 、 
五 秒 钟 ， 等 等 ) 是 可 以 接受 的 。 较 长 的 延迟 意味 着 更 多 的 写 入 可 以 组 合 在 一 起 更 有 效 
地 刷新 到 磁盘 。 缺 点 是 写 入 会 变 得 更 加 “ 突 发 的 "。 但 这 不 是 一 件 坏事 ， 除 非 应 用 一 连 
串 的 写 请 求 把 控制 器 的 缓存 填 满 了 才 被 刷新 到 磁盘 。 如 果 没 有 足够 的 空间 存放 应 用 程序 
的 写 和 信 请求， 写 操作 就 会 等 待 。 保 持 短 的 延迟 意味 着 可 以 有 更 多 的 写 操作 ， 并 且 会 更 低 
效 ”， 但 能 抚 平 性 能 波动 ， 并 且 有 助 于 保持 更 多 的 空间 缓存 ， 来 接收 应 用 程序 的 爆发 请 
求 。( 我 们 在 这 里 简化 了 一 一 事实 上 控制 器 往往 很 复杂 ,不 同 的 供应 商 有 自己 的 均衡 算法 ， 
所 以 我 们 只 是 试图 覆盖 基本 原则 。) 

写 入 缓冲 对 同步 写 入 非常 有 用 ， 例 如 事务 日 志和 二 进 制 日 志 (sync_bintog 设 置 为 1) 
调用 的 fsync()， 但 是 除非 控制 器 有 电池 备份 单元 (BBU) 或 其 他 非 易 失 性 存储 和 ”*， 否 


注 22 : 可 以 缓冲 随机 IO 部 分 合并 为 顺序 IO。 一 一 译 者 注 
注 23 : 因为 没有 充分 地 合并 VO. 译 者 注 
注 24 : 有 几 种 技术 ， 包 括 电容 器 和 闪存 存储 ， 但 这 里 我 们 都 归结 到 BBU 这 一 类 。。 
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则 不 应 该 启用 RAID 缓存 。 不 带 BBU 的 情况 下 缓冲 写 ， 在 断 电 时 ， 有 可 能 损坏 数据 库 ， 
甚至 是 事务 性 文件 系统 。 然 而 ， 如 果 有 BBU， 启 用 写 人 缓存 可 以 提升 很 多 日 志 刷 新 的 工 
作 的 性 能 ， 例 如 事务 提交 时 刷新 事务 日 志 。 


最 后 要 芳 虑 的 是 ， 许 多 硬盘 驱动 器 有 目 己 的 缓存 ， 可 能 有 “ 假 ”的 fsync() Re, E 
骗 RAID 控制 器 说 数据 已 被 写 和 物理 介质 <“。 有 时 可 以 让 硬盘 直接 挂 载 (而 不 是 挂 到 
RAID 控制 器 上 ) ， 让 操作 系统 管理 它们 的 缓存 ， 但 这 并 不 总 是 有 效 。 这 些 缓存 通常 在 做 
fsync ( ) 操作 时 被 刷新 ， 另 外 同步 1O 也 会 绕 过 它们 直接 访问 磁盘 ， 但 是 再 次 提醒 ， 硬 
盘 驱 动 器 可 能 会 骗 你 。 应 该 确保 这 些 缓存 在 fsync() 时 真 的 刷新 了 ， 盏 则 就 禁用 它们 ， 
因为 磁盘 缓存 没有 电池 供电 (所 以 断 电 会 丢失 )。 操 作 系 统 或 RAID 固件 没有 正确 地 管 
理 硬盘 管理 已 经 造成 了 许多 数据 丢失 的 案例 。 


由 于 这 个 以 及 其 他 原因 ， 当 安装 新 硬件 时 ， 做 一 次 真实 的 和 宕 机 测试 〈 比 如 拔 掉 电 源 ) 是 
很 有 必要 的 。 通 党 这 是 找 出 隐藏 的 错误 配置 或 者 诡异 的 硬盘 问题 的 唯一 办 法 。 在 http: // 
brad.livejournal.com/2116715.html 有 个 方便 的 脚本 可 以 使 用 。 


为 了 测试 是 否 真 的 可 以 依赖 RAID 控制 器 的 BBU， 必 须 像 真实 情况 一 样 切断 电源 一 段 时 
间 ， 因 为 某 些 单元 断 电 超过 一 段 时 间 后 就 可 能 会 丢失 数据 。 这 里 再 次 重申 ， 任 何 一 个 环 
节 出 现 问 题 都 会 使 整个 存储 组 件 失效 。 


9.7 SAN 和 NAS 


SAN (Storage Area Network) 和 NAS (Network-Attached Storage) 是 两 个 外 部 文件 存 
储 设备 加 载 到 服务 器 的 方法 。 不 同 的 是 访问 存储 的 方式 。 访 问 SAN 设备 时 通过 块 接口 ， 
服务 器 直接 看 到 一 块 硬盘 并 且 可 以 像 硬盘 一 样 使 用 , 但 是 NAS 设备 通过 基于 文件 的 协议 
来 访问 ,例如 NFS SMB. SAN 设备 通常 通过 光纤 通道 协议 (FCP) 或 iSCSI 连接 到 
服务 器 ,而 NAS 设备 使 用 标准 的 网 络 连 接 。 还 有 一 些 设备 可 以 同时 通过 这 两 种 方式 访问 ， 
比如 NetApp Filer 存储 系统 。 


在 接 下 来 的 讨论 中 ， 我 们 将 把 这 两 种 类 型 的 存储 统一 称 为 SAN。 在 后 面 的 阅读 应 该 记 住 
这 一 点 。 主 要 区 别 在 于 作为 文件 还 是 块 设备 访问 存储 。 


SAN 允许 服务 器 访问 非常 大 量 的 硬盘 驱动 器 一 一 通常 在 50 块 以 上 一 一 并 且 通 常 配置 大 
容量 智能 高 速 缓存 来 缓冲 写 入 。 块 接口 在 服务 器 上 以 逻辑 单元 号 (LUN) 或 者 虚拟 卷 ( 除 
非 使 用 NFS) 出 现 。 许 多 SAN 也 允许 多 市 点 组 成 集群 来 获得 更 好 的 性 能 或 者 增加 存储 


容量 。 





注 25 : 就 是 fsync 只 是 刷新 到 了 硬盘 上 的 缓存 ， 这 个 缓存 是 没有 电池 的 ， 所 以 掉 电 会 于 失 数据 。 一 一 译 者 注 
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目前 新 一 代 SAN 跟 几 年 前 的 不 同 。 许 多 新 的 SAN 混合 了 办 存 和 机 械 硬盘 ， 而 不 仅仅 是 
机 械 硬 盘 了。 它们 往往 有 大 到 TB 级 或 以 上 的 内 存 作 为 缓存 ， 不 像 旧 的 SAN， 只 有 相 
对 较 小 的 缓存 。 此 外 ， 旧 的 SAN 无 法 通过 配置 更 大 的 缓存 层 来 “扩展 缓冲 池 ”， 而 新 的 
SAN 有 时 可 以 。 因 此 ， 相 比 之 下 新 的 SAN 可 以 提供 更 好 的 性 能 


9.7.1 SAN 基准 测试 
我 们 已 经 测试 了 多 个 SAN 厂商 的 多 种 产品 。 表 9-3 展示 了 一 些 低 并 发 场景 下 的 典型 测试 


29-3: etc E ees eee 


设备 顺序 写 ”顺序 读 BAS 随机 读 
SAN1 eT RAID 5 2428 5794 629 258 
SAN1 做 了 RAID 10 1765 3427 1725 213 
SAN2 通过 NFS 1768 3154 2056 166 
10k RPM 硬盘 ，RAID 1 7027 4773 2302 310 
Intel 35D 3045 — 6266 © 2427 © 4397 


具体 的 SAN 厂商 名 字 和 配置 做 了 保密 处 理 ， 但 是 可 以 透露 的 是 这 些 都 不 是 便宜 的 SAN。 
测试 都 是 用 同步 的 16 KB 操作 ， 模 拟 InnoDB 配置 在 0_ DIRECT 模式 时 的 操作 方式 。 


MR 9-3 中 可 以 得 出 什么 结论 ? 我 们 测试 的 系统 不 是 都 可 以 直接 比较 的 ， 所 以 盯 着 这 些 
好 看 的 数据 点 来 看 不 能 客观 地 做 出 评价 。 然 而 ， 这 些 结果 很 好 地 说 明了 这 类 设备 的 总 体 
性 能 表现 ，SAN 可 以 承受 大 量 的 连续 写 入 ， 因 为 可 以 缓冲 并 合并 I/O。SAN 提供 顺序 读 
取 疫 有 问题 ， 因 为 可 以 做 预 读 并 从 缓存 中 提出 数据 。 在 随机 写 上 会 慢 一 些 ， 因 为 写 入 操 
作 不 能 较 好 地 合并 。 因 为 读 取 通常 在 缓存 中 无 法 命中 ， 必 须 等 待 硬盘 驱动 器 了 响应， 所 以 
SAN 很 不 适合 做 随机 读 取 。 最 重要 的 是 ， 服 务 器 和 SAN 之 间 有 传输 延迟 。 这 是 为 什么 
通过 NFS 连接 SAN 时 ,提供 的 每 秒 随机 读 还 不 如 一 块 本 地 磁盘 的 原因 。 


我 们 已 经 用 较 大 尺寸 的 文件 做 了 基准 测试 ， 但 没有 用 其 他 尺寸 的 文件 在 上 述 的 系统 中 测 
试 。 然 而 ， 无 论 结果 如 何 ， 可 以 预见 的 是 : 不 管 多 么 强大 的 SAAN， 对 于 小 的 随机 操作 ， 
都 无 法 获得 民 好 的 响应 时 间 和 吞吐 量 。 延 时 的 大 部 分 都 是 由 于 服务 器 和 SAN 之 间 的 链 
路 导致 的 。 


我 们 的 基准 测试 显示 的 每 秒 操作 吞吐 量 ， 并 没有 说 出 完整 的 故事 。 至 少 有 三 个 重要 指标 ; 
每 秒 吞吐 量 字 节 数 、 并 发 性 和 响应 时 间 。 在 一 般 情 况 下 ， 相 对 于 直接 连接 存储 (DAS), 
SAN 无 论 读 写 都 可 以 提供 更 好 的 顺序 VO 吞吐 量 。 大 多 数 SAN 可 以 支持 大 量 的 并 发 性 ， 
但 基准 测试 只 有 一 个 线程 ， 这 可 以 说 明 最 坏 的 情况 。 但 是 ， 当 工作 集 不 能 放 到 SAN 的 
缓存 时 ， 随 机 读 在 吞吐 量 和 延迟 方面 将 变 得 很 差 ， 甚 至 延迟 将 高 于 直接 访问 本 地 存储 。 
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9.7.2 使 用 基于 NFS 或 SMB 的 SAN 


EE SAN, 例如 NetApp Filer 存储 ， 通 常 通过 NFS 访问 ， 而 不 是 通过 光纤 或 者 iSCSI。 
这 曾经 是 我 们 希望 避免 的 情况 ， 但 是 NFS 今天 比 以 前 好 了 很 多 。 通 过 NFS 可 以 获得 相 
当 好 的 性 能 ， 尽 管 需要 专门 配置 网 络 。SAN 厂商 提供 的 最 佳 实践 指导 可 以 帮助 了 解 怎 样 
配置 。 


主要 考虑 的 事情 是 NFS 协议 自身 怎样 影响 性 能 。 许 多 文件 元 信息 操作 ， 通 常 在 本 地 文件 
系统 或 者 SAN 设备 ( 非 NAS) 的 内 存 中 执行 ,但 是 在 NAS 上 可 能 需要 一 次 网 络 来 回 发 送 。 
例如 ， 我 们 提醒 过 把 二 进 制 日 志 存 在 NFS 上 会 损害 服务 器 性 能 ， 即 使 关闭 sync_binlog 
也 无 济 于 事 。 


也 可 以 通过 SMB 协议 访问 SAN 或 者 NAS， 需 要 考虑 的 问题 类 似 : 可 能 有 更 多 的 网 络 通 
音 ， 会 对 延迟 产生 影响 。 对 传统 桌面 用 户 这 没什么 影响 ， 他 们 通常 只 是 在 挂 载 的 驱动 器 
上 存储 电子 表格 或 者 其 他 文档 ， 或 者 只 是 为 了 备份 复制 一 些 东西 到 另 一 台 服 务 器 。 但 是 
HIE MySQL 读 写 它 的 文件 ， 就 会 有 严重 的 性 能 问题 。 


9.7.3 MySQL 在 SAN 上 的 性 能 | 

VO 基准 测试 只 是 一 种 观察 的 方式 ,MySQL 在 SAN 上 具体 性 能 表现 如 何 ? 在 许多 情况 下 ， 
MySQL 运行 得 还 可 以 ， 可 以 避免 很 多 SAN 可 能 导致 性 能 下 降 的 情况 。 仔 细 地 做 好 膛 辑 
和 物理 设计 ， 包 括 索 引 和 适当 的 服务 器 硬件 (尽量 配置 更 多 的 内 存 ! ) 可 避免 很 多 的 随 
机 I/O 操作 ， 或 者 可 以 转化 为 顺序 的 IO。 然而 ， 应 该 知道 的 是 ， 通 过 一 段 时 间 的 运行 ， 
这 种 系统 可 以 达到 一 个 微妙 的 平衡 一 一 引入 一 个 新 的 查询 ,Schema 的 变化 或 频繁 的 操作 ， 
都 很 容易 扰乱 这 种 平衡 。 


例如 ， 一 个 SAN 用 户 ， 我 们 知道 他 对 每 天 的 性 能 表现 非常 满意 ， 直 到 有 一 天 他 想 清理 
一 张 变 得 非常 大 的 旧 表 中 的 大 量 数据 行 。 这 会 导致 一 个 长 时 间 运 行 的 DELETE 语句 ， 每 秒 
只 能 删 几 百 行 ， 因 为 删除 每 行 所 需 的 随机 I/O, SAN 无 法 有 效 快速 地 执行 。 有 没有 办 法 
来 加 快 操作 ， 它 只 是 要 花费 很 长 的 时 间 才 能 完成 。 另 一 个 让 他 大 吃 一 惊 的 事 是 ， 当 对 一 
个 大 表 执 行 ALTER 类 似 的 操作 时 明显 速度 减 慢 。 


这 些 都 是 些 典型 的 例子 ,哪些 工作 放 在 SAN 上 不 合适 :执行 大 量 的 随机 1/O 的 单线 程 任务 。 
在 当前 版 本 的 MySQL F, 复制 是 另 一 个 单线 程 任务 。 因 此 , 备 库 的 数据 存储 在 SAN E, 
可 能 更 容易 落后 于 主 库 。 批 处 理 作业 也 可 能 运行 得 更 慢 。 在 非 高 峰 时 段 或 周末 执行 一 个 
一 次 性 的 延迟 敏感 的 操作 是 可 以 的 ， 但 是 服务 器 的 很 多 部 分 依然 需要 很 好 的 性 能 ， 例 如 
拷贝 、 二 进 制 日 志 ， 以 及 InnoDB 的 事务 日 志 上 总 是 需要 很 好 的 小 随机 IO ERE. 
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9.7.4 应 该 用 SAN B 


虽 ， 这 是 个 长 期 存在 的 问题 一 在 某 些 情况 下 ， 数 百 万 美元 的 问题 。 有 很 多 因素 要 考虑 ， 
以 下 我 们 列 出 其 中 的 几 个 。 


备份 : | 

集中 存储 使 备份 更 易于 管理 。 当 所 有 数据 都 存储 在 一 个 地 方 时 ， 可 以 只 备份 SAN， 
只 要 确保 已 经 确认 过 了 所 有 的 数据 都 在 。 这 简化 了 问题 ， 例 如 “你 确定 我 们 要 备份 
所 有 的 数据 吗 ? ”此 外 ， 某 些 设备 有 如 连续 数据 保护 (CDP) 以 及 强大 的 快照 功能 
等 功能 ， 使 得 备份 更 容易 、 更 灵活 。 

简化 容量 规划 | 
不 确定 需要 多 大 容量 吗 ? SAN 可 以 提供 这 种 能 
应 用 ， 并 且 可 以 调整 大 小 并 按 需 求 重新 发 布 。 

存储 整合 还 是 服务 器 整合 
某 些 CIO 盘点 数据 中 心 运行 了 哪些 东西 时 ， 可 能 会 得 出 结论 说 大 量 的 1/0 容量 被 浪 
费 了 ， 这 是 把 存储 空间 和 LI/O 容量 混为一谈 了 。 毫 无 疑问 的 是 ， 如 果 集 中 存储 可 以 
确保 更 好 地 利用 存储 资源 ， 但 这 样 做 将 会 如 何 影响 使 用 存储 的 系统 ?典型 的 数据 库 
操作 在 性 能 上 可 以 达到 数量 级 的 差异 ， 因 此 可 能 会 发 现 ， 如 果 集 中 存储 可 能 需要 增 
加 10 倍 的 服务 器 (RES) 才能 处 理 原 来 的 工作 。 尽 管 数 据 中 心 的 IO 容量 在 SAN 
上 可 以 更 好 地 被 利用 ， 但 是 会 导致 其 他 系统 无 法 充分 被 利用 (例如 数据 库 服务 器 花 
费 大 量 时 间 等 待 17O、 应 用 程序 服务 器 花费 大 量 时 间 等 待 数据 库 ， 依 此 类 推 )。 在 现 
实 中 我 们 已 经 看 到 过 很 多 通过 分 散 存储 来 整合 服务 器 并 削减 成 本 的 例子 。 

高 可 用 
有 时 人 们 认为 SAN 是 高 可 用 解决 方案 。 之 所 以 会 这 样 认为 ， 可 能 是 因为 对 高 可 用 的 
真实 含义 的 理解 出 现 了 分 歧 ， 我 们 将 在 第 12 章 给 出 建议 。 
根据 我 们 的 经 验 ，SAN 经 常 与 故障 和 停机 联系 在 一 起 ， 这 不 是 因为 它们 不 可 靠 一 一 
它们 没什么 问题 ， 也 确实 很 少 出 故障 一 一 只 是 因为 人 们 都 不 愿意 相信 这 样 的 工程 奇 
迹 其 实 也 会 坏 的 ， 因 而 缺乏 这 方面 的 准备 。 此 外 ，SAN 有 时 是 一 个 复杂 的 、 神 秘 的 
黑 盒子 ， 当 出 问题 的 时 候 没 有 人 知道 该 如 何 解决 ， 并 且 价格 昂贵 ， 难 以 快速 构建 管 
理 SAN 所 需 的 专业 知识 。 大 多 数 的 SAN 都 对 外 缺乏 可 见 性 (就 是 个 黑 盒子 ) ， 这 也 
是 为 什么 不 应 该 只 是 简单 地 信任 SAN 管理 员 、 支 持 人 员 或 管理 控制 台 的 原因 。 我 们 
看 到 过 所 有 这 三 种 人 都 错 了 的 情况 : 当 SAN 出 了 问题 ， 如 出 现 硬盘 驱动 器 故障 导致 
PERE PT BES 的 案例 。 这 是 另 一 个 推荐 使 用 sysbench 的 理由 : sysbench 可 以 快速 地 完 
成 一 个 VO 基准 测试 以 证 明 是 否 是 SAN 的 问题 。 





购买 大 容量 存储 、 分 享 给 很 多 


注 26 : 基于 网 络 的 SAN 管理 控制 台 坚 持 所 有 硬盘 驱动 器 是 健康 的 一 一 直到 我 们 要 求 管理 员 按 ShifttF5 来 
禁用 他 的 浏览 器 缓存 并 强制 刷新 控制 台 | 
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服务 器 之 间 的 交互 
共享 存储 可 能 会 导致 看 似 独 立 的 系统 实际 上 是 相互 影响 的 ， 有 时 甚至 会 很 严重 。 例 
如 ， 我 们 知道 一 个 SAN 用 户 有 个 很 粗放 的 认识 ， 当 开发 服务 器 上 有 I/O 密集 型 操作 
时 ， 会 引起 数据 库 服务 器 几乎 陷于 停顿 。 批 处 理 作 业 、ALTER TABLE、 备 份 一 一 任何 
一 个 系统 上 产生 大 量 的 IO 操作 都 可 能 会 导致 其 他 系统 的 IO 资源 不 足 。 有 时 的 影 
啊 远 远 比 直觉 想象 的 糟糕 ， 一 个 看 似 不 起 眼 的 操作 可 能 会 导致 严重 的 性 能 下 降 。 
成 本 
成 本 是 什么 ? 管理 和 行政 费用 ? 每 秒 I/O 操作 数 (IOPS) 中 每 个 10 操作 的 成 本 ? 
标价 ? | | 
有 充分 的 理由 使 用 SAN， 但 无 论 销售 人 员 说 什么 ， 至 少 从 MySQL 需要 的 性 能 类 型 
来 看 ，SAN 不 是 最 佳 的 选择 。( 选 择 一 个 SAN 供应 商 并 跟 它们 的 销售 谈 ， 你 可 能 听 
到 他 们 一 般 也 是 同意 的 ， 然 后 告诉 你 他 们 的 产品 是 一 个 例外 。) 如 果 考 虑 性 价 比 ， 结 
论 会 更 加 清楚 ， 因 为 内 存 存储 或 配置 有 电池 支持 写 缓存 的 RAID 控制 器 加 上 老式 硬 
盘 驱 动 器 ， 可 以 在 低 得 多 的 价格 下 提供 更 好 的 性 能 。 
关于 这 个 话题 ， 不 要 忘 了 让 销售 给 你 两 台 SAN 的 价格 。 至 少 需要 两 台 ， 否 则 这 人 台 昂 
SLAY SAN 可 能 会 成 为 故障 中 的 单 点 。 


有 许多 “血泪 史 ” 可 以 引 以 为 戒 ， 这 不 是 试图 吓 距 你 远离 SAN。 我 们 知道 的 SAN 用 户 
都 非常 地 爱 这 些 存储 ! 如 果 正 在 考虑 是 否 使 用 SAN， 最 重要 的 事情 是 想 清楚 要 解决 什么 
问题 。SAN 可 以 做 很 多 事情 ， 但 解决 性 能 问题 只 是 其 中 很 小 的 一 部 分 。 相 比 之 下 ， 当 不 
要 求 很 多 高 性 能 的 随机 IO， 但 是 对 某 些 功 能 感 兴趣 的 话 ， 如 快照 、 存 储 整 合 、 重 复数 
据 删 除 和 虚拟 化 ，SAN 可 能 非常 适合 。 


因此 ,大 多 数 Web 应 用 不 应 该 让 数据 库 使 用 SAN, 但 SAN 在 所 谓 的 企业 级 应 用 很 受 欢迎 。 
企业 通常 不 太 受 预算 限制 ， 所 以 能 够 负担 得 起 作为 “奢侈 品 ” 的 SAN。( 有 时 SAN 甚至 
作为 一 种 身份 的 象征 ! ) 


9.8 使 用 多 磁盘 卷 
我 们 迟 导 都 会 磁 到 文件 应 该 放 哪 的 问题 ， 因为 MySQL 创建 了 多 种 类 型 的 文件 : 


© 数据 和 索引 文件 
。 事务 日 志文 件 


。 二进制 日 志文 件 


。 常规 日 志 (例如 ， 错 误 日 志 、 查 询 日 志和 慢 查 询 日 志 ) 
。 “临时 文件 和 临时 表 
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MySQL 没有 提供 复杂 的 空间 管理 功能 。 默 认 情 况 下 ， 只 是 简单 地 把 每 个 Schema 的 文件 
放 入 一 个 单独 的 目录 。 有 少量 选项 来 控制 数据 文件 放 哪 。 例 如 ， 可 以 指定 MyISAM 表 的 
索引 位 置 ， 也 可 以 使 用 MySQL 5.1 的 分 区 表 。 


如 果 正 在 使 用 InnoDB 默认 配置 ， 所 有 的 数据 和 文件 都 放 在 一 组 数据 文件 (共享 表 空 间 ) 
中 ， 只 有 表 定 义 文件 放 在 数据 目录 。 因 此 ， 大 部 分 用 户 把 所 有 的 数据 和 文件 放 在 了 单独 
的 着。 


然而 ， 有 时 使 用 多 个 卷 可 以 帮助 解决 7O 负载 高 的 问题 。 例 如 ， 一 个 批 处 理 作业 需要 写 
入 很 多 数据 到 一 张 巨 大 的 表 ， 将 这 张 表 放 在 单独 的 卷 上 ， 可 以 避免 其 他 查询 的 IO 受到 影 
响 。 理 想 的 情况 下 ， 应 该 分 析 不 同 数据 的 IO 访问 类 型 ， 才 能 把 数据 放 在 适当 的 位 置 ， 
但 这 很 难 做 到 ， 除 非 已 经 把 数据 放 在 不 同 的 卷 上 。 


你 可 能 已 经 听 过 标准 建议 ， 就 是 把 事务 日 志和 数据 文件 放 在 不 同 的 卷 上 面 ， 这 样 日 志 的 
顺序 WO 和 数据 的 随机 IO 不 会 互相 影响 。 但 是 除非 有 很 多 硬盘 420 或 更 多 ) 或 者 闪存 存储 ， 
否则 在 这 样 做 之 前 应 该 考虑 清楚 代价 。 


二 进 制 日 志和 数据 文件 分 离 的 真正 的 优势 ， 是 减少 事故 中 同时 丢失 数据 和 日 志文 件 的 可 
能 性 。 如 果 RAID 控制 器 上 没有 电池 支持 的 写 缓存 ， 把 它们 分 开 是 很 好 的 做 法 。 


但 是 ， 如 果 有 备用 电池 单元 ， 分 离 卷 就 可 能 不 是 想象 中 那么 必要 了 。 人 性 能 差异 很 小 是 主 
要 原因 。 这 是 因为 即使 有 大 量 的 事务 日 志 写 人， 其 中 大 部 分 写 人 都 很 小 。 因 此 ，RAID 
缓存 通常 会 合并 1/O 请求 ， 通 常 只 会 得 到 每 秒 的 物理 顺序 写 请 求 。 这 通常 不 会 干预 数据 
文件 的 随机 IO， 除 非 RAID 控制 器 真 的 整体 上 饱和 了 。 一 般 的 日 志 ， 其 中 有 连续 的 异 
步 写 入、 负荷 也 低 ， 可 以 较 好 地 与 数据 分 享 一 个 卷 。 


将 日 志 放 在 独立 的 卷 是 否 可 以 提升 性 能 ? 通常 情况 下 是 的 ， 但 是 从 成 本 的 角度 来 看 这 个 
问题 ， 是 否 真 的 值得 这 么 做 ， 答 案 往往 是 否定 的 ， 尽 管 很 多 人 不 这 么 认为 。 


原因 是 : 为 事务 日 志 提 供 专 门 的 硬盘 是 很 郧 贵 的 。 假 设 有 六 个 硬盘 驱动 器 ， 最 稼 规 的 做 
法 是 把 所 有 六 块 盘 放 到 一 个 RAID 眷 ， 或 者 分 成 两 部 分 ， 四 个 放 数 据 ， 两 个 放 事务 日 志 。 
不 过 如 果 这 样 做 ,就 减少 了 三 分 之 一 的 硬盘 放 数 据 文件 ,这 会 导致 性 能 显著 地 下 降 。 此 外 ， 
专门 提供 两 个 驱动 器 ， 对 负载 的 影响 也 微不足道 (假设 RAID 控制 器 有 电池 支持 的 写 缓 
存 )。 


另 一 方面 ， 如 果 有 很 多 硬盘 ， 投 入 一 些 给 事务 日 志 可 能 会 从 中 受益 。 例 如 ， 一 共有 30 块 
硬盘 ， 可 以 分 两 块 硬盘 (配置 为 一 个 RAID 1 的 卷 ) 给 日 志 ， 能 让 日 志 写 尽 可 能 快 。 对 
于 额外 的 性 能 ， 也 可 以 在 RAID 控制 器 中 分 配 一 些 写 缓存 空间 给 这 个 RAID 卷 。 
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成 本 效益 不 是 唯一 考虑 的 因素 。 可 能 想 保持 InnoDB 的 数据 和 事务 日 志 在 同 一 个 卷 的 另 
一 个 原因 是 ， 这 种 策略 可 以 使 用 LVM 快照 做 无 锁 的 备份 。 某 些 文件 系统 允许 一 致 的 多 
卷 快照 ,并且 对 这 些 文件 系统 , 这 是 一 个 很 轻 量 的 操作 ,但 对 于 ext3 有 很 多 东西 需要 注意 。 
(也 可 以 使 用 Percona XtraBackup 来 做 无 锁 备 份 ,关于 此 主题 更 多 的 信息 ,请 参阅 第 15 B) 


如 果 已 经 启用 sync_binLog， 二 进 制 日 志 在 性 能 方面 与 事务 日 志 相 似 了 。 然 而 ， 二 进 制 
日 志 存 储 跟 数据 放 在 不 同 的 卷 ， 实 际 上 是 一 个 好 主意 一 一 把 它们 分 开 存放 更 安全 ， 因 此 
即使 数据 丢失 ， 二 进 制 日 志 也 可 以 保存 下 来 。 这 样 ， 可 以 使 用 二 进 制 日 志 做 基于 时 间 点 
的 恢复 。 这 方面 的 考虑 并 不 适用 于 InnoDB 的 事务 日 志 ， 因 为 没有 数据 文件 ， 它 们 就 没 
用 了 ， 你 不 能 将 事务 日 志 应 用 到 上 昨 晚 的 备份 。( 事 务 日 志和 二 进 制 日 志 之 间 的 区 别 在 其 
他 数据 库 的 DBA 看 来 ， 很 难 搞 明白 ， 在 其 他 数据 库 这 就 是 同一 个 东西 。) 


另外 一 个 常见 的 场景 是 分 离 出 临时 目录 的 文件 ，MySQL 做 filesorts (文件 排序 ) 和 使 用 
磁盘 临时 表 时 会 写 到 临时 目录 。 如 果 这 些 文件 不 会 太 大 的 话 ， 最 好 把 它们 放 在 临时 内 存 
文件 系统 ， 如 tmpfs。 这 是 速度 最 快 的 选择 。 如 果 在 你 的 系统 上 这 不 可 行 ， 就 把 它们 放 在 
操作 系统 盘 上 。 


典型 的 磁盘 布局 是 有 操作 系统 盘 、 交 换 分 区 和 二 进 制 日 志 的 盘 ， 它 们 放 在 RAID 1445, 
还 要 有 一 个 单独 的 RAID 5 或 RAID 10 卷 ， 放 其 他 的 一 切 东 西 。 
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就 像 延迟 和 吞吐 量 是 硬盘 驱动 器 的 限制 因素 一 样 ， 延 迟 和 带宽 (实际 上 和 吞吐 量 是 同一 
回 事 ) 也 是 网 络 连 接 的 限制 因素 。 对 于 大 多 数 应 用 程序 来 说 ， 最 大 的 问题 是 延 时 。 典 型 
的 应 用 程序 都 需要 传输 很 多 很 小 的 网 络 包 ,并且 每 次 传输 的 轻微 延迟 最 终 会 被 累加 起 来 。 


运行 不 正常 的 网 络 通常 也 是 主要 的 性 能 瓶颈 之 一 。 丢 包 是 一 个 普遍 存在 的 问题 。 即 使 
1% 的 丢 包 率 也 是 以 造成 显著 的 性 能 下 降 ， 因 为 在 协议 栈 的 各 个 层次 都 会 利用 各 种 策略 
尝试 修复 问题 ， 例 如 等 待 一 段 时 间 再 重新 发 送 数 据 包 ， 这 就 增加 了 额外 的 时 间 。 另 一 个 
常见 的 问题 是 域名 解析 系统 (DNS) 损坏 或 者 变 慢 了 。 


DNS 足以 称 为 “ 阿 基 里 斯 之 中 ， 因 此 在 生产 服务 器 上 局 用 skip_name_resolve 是 个 好 
主意 。 损 坏 或 缓慢 的 DNS 解析 对 许多 应 用 程序 都 是 个 问题 ， 对 MySQL 尤为 严重 。 当 
MySQL 收 到 一 个 连接 请 求 时 ， 它 同时 需要 做 正和 同和 反 向 DNS 查找 。 有 很 多 原因 可 能 

致 这 个 过 程 出 问题 。 当 问题 出 现时 ， 会 导致 连接 被 拒绝 ， 或 者 使 得 连接 到 服务 器 的 过 程 
变 慢 ， 这 通常 都 会 造成 严重 的 影响 ， 其 至 相当 于 遭遇 了 拒绝 服务 攻击 (DDOS)。 如 果 启 
用 skip_name_resolve £m, MySQL 将 不 会 做 任何 DNS 查找 的 工作 。 然 而 ， 这 也 意 
味 着 ， 用 户 账户 必须 在 host 列 使 用 具有 唯一 性 的 IP 地 址 , “localhost” 或 者 IP 地 址 通 
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配 符 。 那 些 在 host 列 使 用 主机 名 的 用 户 账户 都 将 不 能 登录 。 


典型 的 Web 应 用 中 另 一 个 常见 的 问题 来 源 是 TCP 积压 ， 可 以 通过 MySQL 的 back_log 
选项 来 配置 。 这 个 选项 控制 MySQL 的 传人 TCP 连接 队列 的 大 小 。 在 每 秒 有 很 多 连接 创 
建 和 销毁 的 环境 中 ， 默 认 值 50 是 不 够 的 。 设 置 不 够 的 症状 是 ， 客 户 端 会 看 到 零星 的 “ 连 
接 被 拒绝 ”的 错误 ， 配 以 三 秒 超时 规则 。 在 繁忙 的 系统 中 这 个 选项 通常 应 加 大 。 把 这 个 
选项 增加 到 数 百 甚至 数 千 ， 似 乎 没有 任何 副作用 ， 事 实 上 如 果 你 看 得 远 一 些 ， 可 能 还 需 
要 配置 操作 系统 的 TCP 网 络 设置 。 在 GNU / Linux 系统 ， 需 要 增加 somaxconn 限制 ， 默 
认 只 有 128, 并 且 需 要 检查 sysct! 的 tcp max syn back Log 设置 (在 本 节 稍 后 有 一 个 例子 )。 


应 该 设计 性 能 良好 的 网 络 ， 而 不 是 仅仅 接受 默认 配置 的 性 能 。 首 先 ， 分 析 市 后 之 间 有 多 
少 跳跃 点 ， 以 及 物理 网 络 布局 之 间 的 映射 关系 。 例 如 ,假设 有 10 个 网 页 服务 器 ， 通 过 
千 兆 以 太 网 (1 GigE) 连接 到 “网 页 ”交换 机 ,这 个 交换 机 也 通过 千 兆 网 络 连接 到 数据 库 
交换 机 。 如 果 不 花 时 间 去 追踪 连接 ， 可 能 不 会 意识 到 从 所 有 数据 库 服 务 器 到 所 有 网 页 服 
务 器 的 总 带宽 是 有 限 的 ! 并 且 每 次 跨越 交换 机 都 会 增加 延 时 。 


监控 网 络 性 能 和 所 有 网 络 端口 的 错误 是 正确 的 做 法 ， 要 监控 服务 器 、 路 由 器 和 交换 机 的 
每 个 端口 。 多 路 由 流量 绘图 器 (Multi Router Traffic Grapher) ， 或 者 说 MRTG (http:// 
0ss.0etiker.ch/mrtg/)， 对 设备 监控 而 言 是 个 靠得住 的 开源 解决 方案 。 其 他 常见 的 网 络 性 
能 监控 工具 (与 设备 监控 不 同 ) 还 有 Smokeping (http://0ss.oetiker.ch/smokeping/) 和 
Cacti (http://www.cacti.net) . 


网 络 物理 隔离 也 是 很 重要 的 因素 。 城 际 网 络 相 比 数据 中 心 的 局 域 网 的 延迟 要 大 得 多 ， 即 
使 从 技术 上 来 说 带宽 是 一 样 的 。 如 果 节 点 真 的 相距 其 远 ， 光 速 也 会 造成 影响 。 例 如 ， 在 
美国 的 西部 和 东部 海岸 都 有 数据 中 心 ， 相 隔 约 3 000 公里 。 光 的 速度 是 186 000 米 每 秒 ， 
因此 一 次 通信 不 可 能 低 于 16 毫秒 ,往返 至 少 需要 32 SH. 物理 距离 不 仅 是 性 能 上 的 考虑 ， 
也 包括 设备 之 间 通 信 的 考虑 。 中 继 器 .路 由 器 和 交换 机 ,所 有 的 性 能 都 会 有 所 降级 。 再 次 ， 
越 广泛 地 分 隔 开 的 网 络 节 点 ， 连 接 的 不 可 预知 和 不 可 靠 因 素 越 大 。 


尽 可 能 避免 实时 的 跨 数据 中 心 的 操作 是 明智 的 *“”。 如 果 不 可 能 做 到 这 一 点 ， 也 应 该 确保 
应 用 程序 能 正常 处 理 网 络 故 障 。 例 如 ， 我 们 不 希望 看 到 由 于 Web 服务 器 通过 丢 包 严重 的 
网 络 连接 远程 的 数据 中 心 时 ， 由 于 Apache 进程 挂 起 而 新 建 了 很 多 进程 的 情况 发 生 。 


在 本 地 ， 请 至 少 用 千 兆 网 络 。 骨 干 交 换 机 之 间 可 能 需要 使 用 万 兆 以 太 网 。 如 采 需 要 更 大 
的 带宽 ， 可 以 使 用 网 络 链 路 聚合 : 连接 多 个 网 卡 《NIC)， 以 获得 更 多 的 带宽 。 链 路 聚合 
本 质 上 有 是 并 行 网 络 ， 作 为 高 可 用 策略 的 一 部 分 也 很 有 帮助 。 


27: 复制 不 算 实 时 跨 数 据 中 心 操 作 ， 它 不 是 实时 的 ， 并 且 通 常 把 数据 复制 到 一 个 远程 位 置 有 助 于 提升 
数据 安全 性 ( 容 灾 )。 我 们 下 一 章 会 更 多 徐 盖 这 个 内 容 。 
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如 果 需 要 非 向 高 的 吞吐 量 ， 也 许可 以 通过 改变 操作 系统 的 网 络 配置 来 提高 性 能 。 如 果 连 
接 不 多 ， 但 是 有 很 多 的 查询 和 很 大 的 结果 集 ， 则 可 以 增加 TCP 缓冲 区 的 大 小 。 有 具体 的 实 
现 依赖 于 操作 系统 ， 对 于 大 多 数 的 GNU/ Linux 系统 ， 可 以 改变 /etc/sysctl.conf 中 的 值 并 
执行 sysctl -p, BEA proc 文件 系统 写 入 一 个 新 的 值 到 /proc/sys/net/ 里 面 的 文件 。 搜 
索 “TCP tuning guide”， 可 以 找到 很 多 好 的 在 线 教程 。 


然而 ， 调 整 设置 以 有 效 地 处 理 大 量 连 接 和 小 查询 的 情况 通常 更 重要 。 比 较 常 见 的 调整 之 
一 ， 就 是 要 改变 本 地 端口 的 范围 。 系 统 的 默认 值 如 下 : 


[root@server ~]# cat /proc/sys/net/ipv4/ip local port range 
32768 61000 


有 时 你 也 许 需要 改变 这 些 值 ， 调 整 得 更 大 一 些 。 例 如 : 

[root@server ~]# echo 1024 65535 > /proc/sys/net/ipv4/ip_local_port_range 
如 果 要 允许 更 多 的 连接 进入 队列 ， 可 以 做 如 下 操作 : 

[root@server ~]# echo 4096 > /proc/sys/net/ipv4/tcp_max_syn_backlog 


对 于 只 在 本 地 使 用 的 数据 库 服务 器 ， 对 于 连接 端 还 未 断 开 ， 但 是 通信 已 经 中 断 的 事件 中 
使 用 的 套 接 字 ， 可 以 缩短 TCP 保持 状态 的 超时 时 间 。 在 大 多 数 系统 上 默认 是 一 分 钟 ， 这 
个 时 间 太 长 了 : 


[root@server ~]# echo <value> > /proc/sys/net/ipv4/tcp fin timeout 


这 些 设 置 大 部 分 时 间 可 以 保留 默认 值 。 通 和 常 只 有 当 发 生 了 特殊 情况 ， 例 如 网 络 性 能 极 差 
或 非常 大 量 的 连接 ， 才 需要 进行 修改 。 在 互联 网 上 搜索 “TCP variables”， 可 以 发 现 很 多 
不 错 的 阅读 资料 ， 除 了 上 面 提 到 的 ， 还 能 看 到 很 多 其 他 的 变量 。 


9.10 选择 操作 系统 


GNU/Linux 如 今 是 高 性 能 MySQL 最 常用 的 操作 系统 ， 但 是 MySQL 本 身 可 以 运行 在 很 
多 操作 系统 上 。 


Solaris 是 SPARC 硬件 上 的 领跑 者 ， 在 x86 硬件 上 也 可 以 运行 。Solaris 常用 在 要 求 高 可 
靠 的 应 用 上 面 。Solaris 在 某 些 方面 的 易 用 性 可 能 没有 GNU/Linux 的 名 气 大 ， 但 确实 是 
一 个 坚固 的 操作 系统 ， 包 含 许多 先进 的 功能 。 尤 其 是 Solaris 10 增加 了 ZFS 文件 系统 ， 
包含 了 很 多 先进 的 故障 排除 工具 (如 DTrace)、 良 好 的 多 线程 性 能 ， 以 及 称 为 Solaris 
Zones 的 虚拟 化 技术 ， 有 助 于 资源 管理 。 
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FreeBSD 是 另 一 种 选择 。 它 历来 与 MySQL 配合 有 一 些 问题 ,大 多 时 候 都 涉及 到 线程 支持 ， 
但 新 的 版 本 要 好 得 多 。 如 今 ， 看 到 MySQL 在 FreeBSD 上 大 规模 部 团 的 场景 并 不 是 什么 
稀罕 事 。ZFS 也 可 以 在 FreeBSD 上 使 用 。 


通常 用 于 开发 和 桌面 应 用 程序 的 MySQL 选择 的 是 Windows。 也 有 企业 级 的 MySQL 


部 署 在 Windows 上 ， 但 一 般 的 企业 级 MySQL 更 多 的 还 是 部 署 在 类 UNIX 操作 系统 
上 。 我 们 不 希望 引起 任何 有 关 操 作 系 统 的 争论 ， 需 要 指出 的 是 在 异 构 操作 系统 环境 中 使 
用 MySQL 是 不 存在 问题 的 。 在 类 UNIX 的 操作 系统 上 运行 的 MySQL 服务 器 ， 同 时 在 
Windows 上 运行 Web 服务 器 ,然后 通过 高 品质 的 NET 连接 器 (这 是 MySQL 免费 提供 的 ) 
进行 连接 ， 这 是 一 个 非常 合理 的 架构 。 从 UNIX 连接 到 Windows 上 的 MySQL 服务 器 和 
连接 到 另 一 台 UNIX 上 的 MySQL 服务 器 一 样 简单 。 


当选 择 操 作 系 统 时 ， 如 果 使 用 的 是 64 位 架构 的 硬件 ( 见 前 面 介绍 的 “CPU 架构 ")， 请 
确保 安装 的 是 64 位 版 本 的 操作 系统 。 


谈 到 GNU/Linux 发 行 版 时 ， 个 人 的 喜好 往往 是 决定 性 的 因素 。 我 们 认为 最 好 的 策略 是 使 
用 专 为 服务 器 应 用 程序 设计 的 发 行 版 ， 而 不 是 桌面 发 行 版 。 要 考虑 发 行 版 的 生命 周期 、 
发 布 和 更 新 政策 ， 并 检查 供应 商 的 支持 是 否 有 效 。 红 帽子 企业 版 Linux 是 一 个 高 品质 、 
稳定 的 发 行 版 ; CentOS 是 一 个 受 欢迎 的 二 进 制 兼容 替代 品 (免费 )， 但 已 经 因为 延 后 时 
间 较 长 获得 了 一 些 批评 ; 还 有 Oracle 发 行 的 Oracle Enterprise Linux ; 另外 ，Ubuntu 和 
Debian 也 是 流行 的 发 行 版 。 


9.11 选择 文件 系统 


文件 系统 的 选择 非常 依赖 于 操作 系统 。 在 许多 系统 中 ,如 Windows 就 只 有 一 到 两 个 选择 ， 
而 且 只 有 一 个 (NTFS) 真 的 是 能 用 的 。 比 较 而 言 ，GNU/Linux 则 支持 多 种 文件 系统 。 


许多 人 想 知 道 哪 个 文件 系统 在 GNU/Linux 上 能 提供 最 好 的 MySQL 性 能 ， 或 者 更 具体 一 
些 ， 哪 个 对 InnoDB FU MyISAM 而 言 是 最 好 的 选择 。 实 际 的 基准 测试 表明 ， 大 多 数 文件 
系统 在 很 多 方面 都 非常 接近 ， 但 测试 文件 系统 的 性 能 确实 是 一 件 烦心 事 。 文 件 系统 的 性 
能 是 与 工作 负载 相关 的 ， 没 有 哪个 文件 系统 是 “ 银 弹 ”。 大 部 分 情况 下 ， 给 定 的 文件 系 
统 不 会 明显 地 表现 得 与 其 他 文件 系统 不 一 样 。 除 非 遇 到 了 文件 系统 的 限制 ， 例 如 ， 它 怎 
么 支持 并 发 、 怎 么 在 多 文件 下 工作 、 怎 么 对 文件 切片 ， 等 等 。 


要 考虑 的 更 重要 的 问题 是 骨 溃 恢复 时 间 ， 以 及 是 否 会 遇 到 特定 的 限制 ， 如 目录 下 有 许多 
文件 会 导致 运行 缓慢 (这 是 ext2 和 旧版 本 ext3 下 一 个 臭名 昭著 的 问题 ， 但 当前 版 本 的 
ext3 和 ext4 中 用 dir_index 选项 解决 了 问题 )。 文 件 系统 的 选择 对 确保 数据 安全 是 非常 
重要 的 ， 所 以 我 们 强烈 建议 不 要 在 生产 系统 做 实验 。 
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如 果 可 能 , 最 好 使 用 日 志文 件 系统 , 例如 ext3, ext4, XFS, ZFS 或 者 下 S。 如 果 不 这 么 做 ， 
月 注 后 文件 系统 的 检查 可 能 耗费 相当 长 的 上 时间。 如 果 系 统 不 是 很 重要 ， 非 日 志文 件 系统 
性 能 可 能 比 支持 事务 的 好 。 例 如 ，ext2 可 能 比 ext3 工作 得 好 ， 或 者 可 以 使 用 tunefs 关闭 
ext3 的 日 志 记 录 功 能 。 挂 载 时 间 对 某 些 文件 系统 也 是 一 个 因素 。 例 如 ，ReiserFS， 在 一 
个 大 的 分 区 上 可 能 用 很 长 时 间 来 挂 载 和 执行 日 志 恢 复 。 


如 果 使 用 ext3 或 者 其 继承 者 ext4， 有 三 个 选项 来 控制 数据 怎么 记 日 志 ， 这 可 以 放 在 /etc/ 
fstab 中 作为 挂 载 选项 : 


data=writeback 
这 个 选项 意味 着 只 有 元 数据 写 入 日 志 。 元 数据 写 和 信和 数据 写 入 并 不 同步 。 这 是 最 快 
的 配置 ， 对 InnoDB 来 说 通常 是 安全 的 ， 因 为 InnoDB 有 自己 的 事务 日 志 。 唯 一 的 例 
外 是 ， 崩 溃 时 恰好 导致 frm 文件 损坏 了 。 
这 里 给 出 一 个 使 用 这 个 配置 可 能 导致 问题 的 例子 。 当 程序 决定 扩展 一 个 文件 使 其 更 
大 ,元 数据 (文件 大 小 ) 会 在 数据 实际 写 到 (更 大 的 ) 文件 之 前 记录 并 写 下 操作 情况 。 
结果 就 是 文件 的 尾部 一 一 最 新 扩展 的 区 域 一 一 会 包含 垃圾 数据 。 

data=ordered 
这 个 选项 也 只 会 记录 元 数据 ,但 提供 了 一 些 一 致 性 保证 ,在 写 元 数据 之 前 会 先 写 数 据 ， 
使 它们 保持 一 致 。 这 个 选项 只 是 略微 比 writeback 选项 慢 ， 但 是 崩溃 时 更 安全 。 

”在 此 配置 中 ， 如 果 我 们 再 次 假设 程序 想 要 扩展 一 个 文件 ， 该 文件 的 元 数据 将 不 能 反 

映 文件 的 新 大 小 ， 直 到 驻 留 在 新 扩展 区 域 中 的 数据 被 写 到 文件 中 了 。 

data=journal | 
此 选项 提供 了 原子 日 志 的 行为 ， 在 数据 写 入 到 最 终 位 置 之 前 将 记录 到 日 志 中 。 这 个 
选项 通常 是 不 必要 的 ， 它 的 开销 远 远 高 于 其 他 两 个 选项 。 然 而 ， 在 某 些 情况 下 反而 
可 以 提高 性 能 ， 因 为 日 志 可 以 让 文件 系统 延迟 把 数据 写 入 最 终 位 置 的 操作 。 


不 管 哪 种 文件 系统 ， 都 有 一 些 特定 的 选项 最 好 禁用 ， 因 为 它们 没有 提供 任何 好 处 ， 反 而 
增加 了 很 多 开销 。 最 有 名 的 是 记录 访问 时 间 的 选项 ， 甚 至 读 文件 或 目录 时 也 要 进行 一 次 
写 操作 。 在 /etc/fstab 中 添加 noatime、nodiratime 挂 载 选 项 可 以 禁用 此 选项 ， 这 样 做 有 
时 可 以 提高 5% ~ 10% 的 性 能 ， 具 体 取决 于 工作 负载 和 文件 系统 (虽然 在 其 他 场景 下 差 
别 可 能 不 是 太 大 )。 下 面 是 /etc/fstab 中 的 一 个 例子 ， 对 ext3 选项 做 设置 的 行 : 


/dev/sda2 /usr/lib/mysql ext3 noatime,nodiratime,data=writeback 0 1 


还 可 以 调整 文件 系统 的 预 读 的 行为 ， 因 为 这 可 能 也 是 多 余 的 。 例 如 ，InnoDB 有 自己 的 
预 读 策略 ， 所 以 文件 系统 的 预 读 就 是 重复 多 余 的 。 禁 用 或 限制 预 读 对 Solaris 的 UFS È 
其 有 利 。 使 用 0 DIRECT 选项 会 自动 禁用 预 读 。 
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一 些 文件 系统 可 能 不 支持 某 些 需要 的 功能 。 例 如 ， 若 让 InnoDB 使 用 0_DIRECT 刷新 方 
式 ， 文 件 系统 能 支持 Direct LI/O 是 非常 重要 的 。 此 外 ， 一 些 文件 系统 处 理 大 量 底层 驱动 
器 比 其 他 的 文件 系统 更 好 ， 举 例 来 说 XFS 在 这 方面 通常 比 ext3 好 。 最 后 ， 如 果 打 算 使 
M LVM 快照 来 初始 化 备 库 或 进行 备份 ， 应 该 确认 选择 的 文件 系统 和 LVM 版 本 能 很 好 地 
协同 工作 。 


Be 9-4 某 些 常见 文件 系统 的 特性 总 结 
表 9-4:; 常见 文件 系统 特性 


文件 系统 ”操作 系统 支持 日 志 ”大 目录 
ext2 GNU/Linux E 否 

ext3 GNU/Linux 可 选 可 选 / 部 分 
ext4 GNU/Linux 是 是 

HFS Plus Mac 0S 可 选 是 

JFS GNU/Linux 是 eN 

NTFS | Windows 是 是 
ReiserFS GNU/Linux 是 是 

UFS (Solaris) Solaris 是 可 调 的 
UFS (FreeBSD) FreeBSD T 可 选 / 部 分 
UFS2 FreeBSD 否 可 选 / 部 分 
XFS GNU/Linux 是 是 

ZFS | Solaris, FreeBSD 是 是 


em 人 | rr 


我 们 通常 建议 客户 使 用 XFS 文件 系统 。ext3 文件 系统 有 太 多 严重 的 限制 ， 例如 inode 只 
有 一 个 互 斥 变量 ， 并 且 fsync() 时 会 刷新 所 有 脏 块 ， 而 不 只 是 单个 文件 。 很 多 人 感觉 
ext4 文件 系统 用 在 生产 环境 有 点 太 新 了 ， 不 过 现在 似乎 正 日 益 普及 。 


9.12 选择 磁盘 队列 调度 策略 


在 GNU / Linux E, 队列 调度 决定 了 到 块 设 备 的 请 求实 际 上 发 送 到 底层 设备 的 顺序 。 上 加 
认 情 况 下 使 用 cfq (Completely Fair Queueing， 完 全 公平 排队 ) 策略 。 随 意 使 用 的 笔记 
本 和 台式 机 使 用 这 个 调度 策略 没有 问题 ， 并 且 有 助 于 防止 IO 饥饿 ， 但 是 用 于 服务 器 则 
是 有 问题 的 。 在 MySQL 的 工作 负载 类 型 下 ， ete 会 导致 很 差 的 响应 时 间 ， 因 为 会 在 队列 
中 延迟 一 些 不 必要 的 请 求 。 


可 以 用 下 面 的 命令 来 查看 系统 所 有 支持 的 以 及 当 前 在 用 的 调度 策略 : 


$ cat ET Th 
noop deadline [cfq] 
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这 里 sqa 需 要 替换 成 想 查看 的 磁盘 的 盘 符 。 在 我 们 的 例子 中 ， 方 括号 表示 正在 使 用 的 调 
度 策略 。cfq 之 外 的 两 个 选项 都 适合 服务 器 级 的 硬件 ， 并 且 在 大 多 数 情 况 下 ， 它 们 工作 
同样 出 色 。noop 调度 适合 没有 自己 的 调度 算法 的 设备 ， 如 硬件 RAID 控制 器 和 SAN。 
deadline 则 对 RAID 控制 器 和 直接 使 用 的 磁盘 都 工作 良好 。 我 们 的 基准 测试 显示 ， 这 两 
者 之 间 的 差异 非常 小 。 重 要 的 是 别 用 cfq， 这 可 能 会 导致 严重 的 性 能 问题 。 


不 过 这 个 建议 也 需要 有 所 保留 的 ， 因 为 磁盘 调度 策略 实际 上 在 不 同 的 内 核 有 很 多 不 一 样 
的 地 方 ， 千 万 不 能 望 文生 义 。 


9.13 线程 


MySQL 每 个 连接 使 用 一 个 线程 ， 另 外 还 有 内 部 处 理 线程 、 特 殊 用 途 的 线程 ， 以 及 所 有 
存储 引擎 创建 的 线程 。 在 MySQL 5.5 中 ，Oracle 提供 了 一 个 线程 池 插 件 ， 但 目前 尚 不 清 
楚 在 实际 应 用 中 能 获得 什么 好 处 。 


无 论 哪 种 方式 ，MySQL 都 需要 大 量 的 线程 才能 有 效 地 工作 。MySQL 确实 需要 内 核 级 线 
程 的 支持 ， 而 不 只 是 用 户 级 线程 ， 这 样 才能 更 有 效 地 使 用 多 个 CPU。 另 外 也 需要 有 效 的 
同步 原子 ， 例 如 互 斥 变量 。 操 作 系 统 的 线程 库 必 须 提 供 所 有 的 这 些 功 能 。 


GNU/Linux 提供 两 个 线程 库 : LinuxThreads 和 新 的 原生 POSIX 线程 库 (NPTL)。 
LinuxThreads 在 某 些 情况 下 仍然 使 用 ， 但 现在 的 发 行 版 已 经 切换 到 NPTL， 并 且 大 部 分 
应 用 已 经 不 再 加 载 LinuxThreads。NPTL 更 轻 量 ， 更 高 效 ， 也 不 会 有 那些 LinuxThreads 
遇 到 的 问题 。 

FreeBSD 会 加 载 许 多 线程 库 。 从 历史 上 看 , 它 对 线程 的 支持 很 弱 ,但 现在 已 经 变 得 好 多 了 ， 
在 一 些 测 试 中 ， 甚 至 优 于 SMP 系统 上 的 GNU/Linux, Æ FreeBSD 6 和 更 新 版 本 ， 推 荐 
的 线程 库 是 libthr， 早 期 版 本 使 用 的 linuxthreads, # FreeBSD 从 GNU/Linux 上 移植 的 
LinuxThreads Æ. 


通常 ， 线 程 问 题 都 是 过 去 的 事 了 ， 现 在 GNU/Linux 和 FreeBSD 都 提供 了 很 好 的 线程 库 。 


Solaris 和 Windows 一 直 对 线程 有 很 好 的 支持 ， 尽 管 直到 5.5 发 布 之 前 ，MyISAM 都 不 能 
在 Windows 下 很 好 地 使 用 线程 ， 但 5.5 里 有 显著 的 提升 。 


9.14 内 存 交换 区 


当 操 作 系 统 因为 没有 足够 的 内 存 而 将 一 些 虚拟 内 存 写 到 磁盘 就 会 发 生 内 存 交换 *”。 内 存 
交换 对 操作 系统 中 运行 的 进程 是 透明 的 。 只 有 操作 系统 知道 特定 的 虚拟 内 存 地 址 是 在 物 
注 28 : 内 看 交换 有 时 称 为 页 面 交换 。 从 技术 上 来 说 , 它们 是 不 同 的 东西 , 但 是 人 们 通常 把 它们 作为 同义词 。 
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理 内 存 还 是 硬盘 。 


内 存 交 换 对 MySQL 性 能 影响 是 很 精 糕 的 。 它 破坏 了 缓存 在 内 存 的 目的 ， 并 且 相对 于 使 
用 很 小 的 内 存 做 缓存 ， 使 用 交换 区 的 性 能 更 差 。MySQL 和 存储 引擎 有 很 多 算法 来 区 别 
对 待 内 存 中 的 数据 和 硬盘 上 的 数据 ， 因 为 一 般 都 假设 内 存 数据 访问 代价 更 低 。 


因为 内 存 交 换 对 用 户 进程 不 可 见 ，MySQL (或 存储 引擎 ) 并 不 知道 数据 实际 上 已 经 移动 
到 磁盘 ， 还 会 以 为 在 内 存 中 。 


结果 会 导致 很 差 的 性 能 。 例 如 ， 若 存储 引擎 认 为 数据 依然 在 内 存 ， 可 能 觉得 为 “短暂 
的 内 存 操作 锁定 一 个 全 局 互 斥 变量 (例如 InnoDB 缓冲 池 Mutex) 是 OK 的 。 如 果 这 个 
操作 实际 上 引起 了 硬盘 1O， 直 到 IO 操作 完成 前 任何 操作 都 会 被 挂 起 。 这 意味 着 内 存 交 
换 比 直接 做 硬盘 IO 操作 还 要 粳 糕 。 


在 GNU/Linux 上 ， 可 以 用 vmstat (在 下 一 部 分 展示 了 一 些 例 子 ) 来 监控 内 存 交 换 。 最 好 
查看 si 和 so 列 报告 的 内 存 交 换 IO 活动 ， 这 比 看 swpd 列 报告 的 交换 区 利用 率 更 重要 。 
swpd 列 可 以 展示 那些 被 载 入 了 但 是 没有 被 使 用 的 进程 ， 它 们 并 不 是 真 的 会 成 为 问题 。 我 
们 喜欢 si 和 so 列 的 值 为 0， 并且 一 定 要 保证 它们 低 于 每 秒 10 MR. 


极端 的 场景 下 ,， 太 多 的 内 存 交 换 可 能 导致 操作 系统 交换 空间 溢出 。 如 果 发 生 了 这 种 情况 ， 
缺乏 虚拟 内 存 可 能 让 MySQL 崩 涡 。 但 是 即使 交换 空间 没有 溢出 ， 非 常 活跃 的 内 存 交 换 
也 会 导致 整个 操作 系统 变 得 无 法 响应 ， 到 这 种 时 候 甚至 不 能 登录 系统 去 杀 掉 MySQL 进 
程 。 有 了 时 当 交 换 空间 溢出 时 ， 其 至 Linux 内 核 都 会 完全 hang È. 


绝 不 要 让 系统 的 虚拟 内 存 溢出 ! 对 交换 空间 利用 率 做 好 监控 和 报警 。 如 果 不 知道 需要 多 
少 交 换 空间 ， 就 在 硬盘 上 尽 可 能 多 地 分 配 空间 ， 这 不 会 对 性 能 造成 冲击 ， 只 是 消耗 了 硬 
盘 空 间 。 有 些 大 的 组 织 清楚 地 知道 内 存 消 耗 将 有 多 大 ， 并 且 内 存 交换 被 非常 严格 地 控制 ， 
但 是 对 于 只 有 少量 多 用 途 的 MySQL 实例 ， 并 且 工 作 负载 也 多 种 多 样 的 环境 ， 通 常 不 切 
实际 。 如 果 后 者 的 描述 更 符合 实际 情况 ， 确 认 给 服务 器 一 些 “呼吸 ”的 空间 ， 分 配 足 够 
的 交换 空间 。 


在 特别 大 的 内 存 压力 下 经 常 发生 的 另 一 件 事 是 内 存 不 足 (OOM) ， 这 会 导致 踢 掉 和 杀 掉 
一 些 进程 。 在 MySQL 进程 这 很 常见 。 在 另外 的 进程 上 也 挺 常见 ， 比 如 SSH， 甚 至 会 让 
系统 不 能 从 网 络 访问 。 可 以 通过 设置 SSH 进程 的 oom adj 或 oom score adj 值 来 避免 这 
种 情况 。 


可 以 通过 正确 地 配置 MySQL 缓冲 来 解决 大 部 分 内 存 交 换 问 题 ， 但 是 有 时 操作 系统 的 虚 
拟 内 存 系 统 还 是 会 决定 交换 MySQL 的 内 存 。 这 通常 发 生 在 操作 系统 看 到 MySQL 发 出 
了 大 量 WO， 因 此 尝试 增加 文件 缓存 来 保存 更 多 数据 时 。 如 果 没 有 足够 的 内 存 ， 有 些 东 
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西 就 必须 被 交换 出 去 ， 有 些 可 能 就 是 MySQL 本身。 有 些 老 的 Linux 内 核 版 本 也 有 一 些 
适得其反 的 优先 级 ， 导 致 本 不 应 该 被 交换 的 被 交换 出 去 ， 但 是 在 最 近 的 内 核 都 被 缓解 了 。 


有 些 人 主张 完全 禁用 交换 文件 。 尽 管 这 样 做 有 时 在 某 些 内 核 拒绝 工作 的 极端 场景 下 是 可 
行 的 ， 但 这 降低 了 操作 系统 的 性 能 〈 在 理论 上 不 会 ， 但 是 实际 上 会 的 )。 同 时 这 样 做 也 
是 很 危险 的 ， 因 为 禁用 内 存 交 换 就 相当 于 给 虚拟 内 存 设置 了 一 个 不 可 动摇 的 限制 。 如 果 
MySQL 需要 临时 使 用 很 大 一 块 内 存 ， 或 者 有 很 耗 内 存 的 进程 运行 在 同一 台 机 器 (snk 
间 批 量 任务 )，MySQL 可 能 会 内 存 溢出 、 月 涡 ， 或 者 被 操作 系统 杀 死 。 


操作 系统 通常 允许 对 虚拟 内 存 和 IO 进行 一 些 控制 。 我 们 提供 过 一 些 GNU/Linux 上 控制 
它们 的 办 法 。 最 基本 的 方法 是 修改 /proc/sys/vm/swappiness 为 一 个 很 小 的 值 ,例如 0 或 1。 
这 告诉 内 核 除 非 虚 拟 内 存 完全 满 了 ， 否 则 不 要 使 用 交换 区 。 下 面 是 如 何 检 查 这 个 值 的 例 
子 : 


$ cat /proc/sys/vm/swappiness 
60 


这 个 值 显示 为 60， 这 是 默认 的 设置 (EHO ~ 100)。 对 服务 器 而 言 这 是 个 很 糟糕 的 
默认 值 。 这 个 值 只 对 笔记 本 适用 。 服 务 器 应 该 设置 为 0 


$ echo 0 > /proc/sys/vm/swappiness 


另 一 个 选项 是 修改 存储 引擎 怎么 读 取 和 写 和 人 数据 。 例 如， 使 用 innodb_flush_method=0_ 
DIRECT， 减 轻 IO ÆJ. Direct 10 并 不 缓存 ， 因 此 操作 系统 并 不 能 把 MySQL 视 为 增加 
文件 缓存 的 原因 。 这 个 参数 只 对 InnoDB 有 效 。 你 也 可 以 使 用 大 页 ， 不 参与 换 入 换 出 。 
这 对 MyISAM 和 InnoDB 都 有 效 。 


另 一 个 选择 是 使 用 MySQL 的 memlock 配置 项 ， 可 以 把 MySQL 锁定 在 内 存 。 这 可 以 避 
免 交 换 ， 但 是 也 可 能 带 来 危险 : 如 果 没 有 足够 的 可 锁定 内 存 ，MySQL 在 尝试 分 配 更 多 
内 存 时 会 崩 涡 。 这 也 可 能 导致 锁定 的 内 存 太 多 而 没有 足够 的 内 存留 给 操作 系统 。 


很 多 技巧 都 是 对 于 特定 内 核 版 本 的 ， 因 此 要 小 心 ， 尤 其 是 当 升级 的 时 候 。 在 某 些 工作 负 
载 下 ， 很 难 让 操作 系统 的 行为 合情合理 ， 并 且 仅 有 的 资源 可 能 让 缓冲 大 小 达 不 到 最 满意 
的 值 。 


9.15 操作 系统 状态 


操作 系统 会 提供 一 些 帮 助 发现 操 作 系 统 和 硬件 正在 做 什么 的 工具 。 在 这 一 市 ， 我 们 会 展 
示 一 些 例子 ， 包 括 关 于 怎样 使 用 两 个 最 常用 的 工具 iostat 和 vmstat。 如 果 系 绒 不 提供 
它们 中 的 任何 一 个 ， 有 可 能 提供 了 相似 的 替代 品 。 因 此 ， 我 们 的 目的 不 是 让 大 家 熟练 使 
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用 iostat 和 vmstat， 而 是 告诉 你 用 类 似 的 工具 诊断 问题 时 应 该 看 什么 指标 。 


除了 这 些 ， 操 作 系 统 也 许 还 提供 了 其 他 的 工具 ， 如 mpstat 或 者 sar。 如 果 对 系统 的 其 他 
部 分 感 兴趣 ， 例 如 网 络 ， 你 可 能 希望 使 用 ifconfig (除了 其 他 信息 ， 它 能 显示 发 生 了 多 少 
次 网 络 错误 ) 或 者 netstat. 


BRUNT, vmstat 和 iostat 只 是 生成 一 个 报告 ， 展示 自 系统 启动 以 来 很 多 计数 器 的 平 
均值 ， 这 其 实 没 什么 用 。 然 而 ， 两 个 工具 都 可 以 给 出 一 个 间隔 参数 ， 让 它们 生成 增 量 值 
的 报告 ， 展 示 服 务 器 正在 做 什么 ， 这 更 有 用 。( 第 一 行 显示 的 是 系统 启动 以 来 的 统计 ， 通 
常 可 以 忽略 这 一 行 。) 


9.15.1 如 何 阅 读 vmstat 的 输出 
REE -A vmstat 的 例子 。 用 下 面 的 命令 让 它 每 5 秒 钟 打印 出 一 个 报告 : 
$ vmstat 5 
procs ----------- memory---------- --- swap-- -----io---- -system-- ---- cpu---- 
r b swpd free buff cache si so bi bo in cs us sy id wa 
O O 2632 25728 23176 740244 0 O 527 521 11 310 1 8 3 
0 O 2632 27808 23180 738248 0 0 2 430 222 66 2 097 O 
可 以 用 Ctrl+C 停止 vmstat。 可 以 看 到 输出 依赖 于 所 用 的 操作 系统 ， 因 此 可 能 需要 阅读 一 
下 手册 来 解读 报告 。 | 


刚 启动 不 入 ， 即 使 采用 增 量 报 告 ， 第 一 行 的 值 还 是 显示 自 系统 启动 以 来 的 平均 值 ， 第 二 
行 开 始 展示 现在 正在 发 生 的 情况 ， 接 下 来 的 行 会 展示 每 5 秒 的 间隔 内 发 生 了 什么 。 每 一 
列 的 含义 在 头 部 ， 如 下 所 示 : 


procs 
r 这 一 列 显示 了 多 少 进程 正在 等 待 CPU, b 列 显示 多 少 进程 正在 不 可 中 断 地 休眠 ( 通 
常 意味 着 它们 在 等 待 /JO， 例 如 磁盘 、 网 络 、 用 户 输 入 ， 等 等 )。 

memory 
swpd 列 显 示 多 少 块 被 换 出 到 了 磁盘 (页面 交换 )。 剩 下 的 三 个 列 显 示 了 多 少 块 是 空 
WAI (未 被 使 用 ) 、 多 少 块 正 在 被 用 作 缓 冲 ， 以 及 多 少 正在 被 用 作 操 作 系 统 的 缓存 。 


swap 


这 些 列 显示 页 面 交 换 活 动 : 每 秒 有 多 少 块 正 在 被 换 入 从 磁盘 ) 和 换 出 (到 磁盘 )。 


它们 比 监控 swpd 列 重要 多 了 。 
大 部 分 时 间 我 们 喜欢 看 到 si 和 so 列 是 0， 并 且 我 们 很 明确 不 希望 看 到 每 秒 超过 10 
个 块 。 突 发 性 的 高 峰 一 样 很 糟糕 。 
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io 
这 些 列 显示 有 多 少 块 从 块 设备 读 取 (bi) MBH (bo)。 这 通常 反映 了 硬盘 VO, 
system 
这 些 列 显示 了 每 秒 中 断 Cin) 和 上 下 文 切换 (cs) 的 数量 。 
cpu 
这 些 列 显示 所 有 的 CPU 时 间 花 费 在 各 类 操作 的 百分比 ,包括 执行 用 户 代码 ( 非 内 核 )、 
执行 系统 代码 (内 核 )、 空 闲 ， 以 及 等 待 1O。 如 果 正 在 使 用 虚拟 化 ， 则 第 五 个 列 可 
能 是 st， 显 示 了 从 虚拟 机 中 “ 偷 走 ”的 百分比 。 这 关系 到 那些 虚拟 机 想 运行 但 是 系 
统管 理 程序 转 而 运行 其 他 的 对 象 的 时 间 。 如 果 虚 拟 机 不 希望 运行 任何 对 象 ， 但 是 系 
统管 理 程序 运行 了 其 他 对 象 ， 这 不 算 被 偷 走 的 CPU 时 间 。 


vmstat 的 输出 跟 系 统 有 关 ， 所 以 如 果 看 到 跟 我 们 展示 的 例子 不 同 的 输出 ， 应 该 阅读 系统 
的 vmstat(8) 手册 。 一 个 重要 的 提示 是 :内 存 、 交 换 区 , 以 及 IO 统计 是 块 数 而 不 是 字 节 。 
在 GNU/Linux， 块 大 小 通常 是 1 024 字 节 。 


9.15.2 如 何 阅 读 iostat 的 输出 
现在 让 我 们 转移 到 iostat”。 上 默认 情况 下 , 它 显示 了 与 vmstat 相同 的 CPU 使 用 信息 。 我 
们 通常 只 是 对 IO 统计 感 兴趣 ， 所 以 使 用 下 面 的 命令 只 展示 扩展 的 设备 统计 : 

$ iostat -dx 5 


Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util | 
sda 1.6 2.8 2.51.8 138.8 36.9 40.7 0.1 23.2 6.0 2.6 


与 vmstat 一 样 ， 第 一 行 报告 显示 的 是 目 系 统 启 动 以 来 的 平均 值 〈 通 常 删 掉 它 节 省 空间 )， 
然后 接 下 来 的 报告 显示 了 增 量 的 平均 值 ， 每 个 设备 一 行 。 


有 多 种 选项 显示 和 隐藏 列 。 官 方 文档 有 点 难以 理解 ， 因 此 我 们 必须 从 源码 中 控 气 真正 显 
示 的 内 容 是 什么 。 说 明 的 列 信息 如 下 : 


rrqm/s 和 wrqm/s 
每 秒 合并 的 读 和 写 请 求 。 合并 的 ”意味 着 操作 系统 从 队列 中 拿 出 多 个 逻辑 请 求 合并 
为 一 个 请 求 到 实际 磁盘 。 

r/s 和 w/s 
每 秒 发 送 到 设备 的 读 和 写 请 求 。 

rsec/s 和 wsec/s 


每 秒 读 和 写 的 扇 区 数 。 有 些 系统 也 输出 为 rkB/s 和 wkB/s, 意 为 每 秒 读 写 的 千 字 节 数 。 


注 29: 我 们 本 书展 示 的 iostat 的 例子 为 了 印刷 被 稍微 重 排 了 : 我 们 减少 了 小 数位 来 避免 换行 。 我 们 是 在 
GNU/Linux 上 展示 例子 。 其 他 操作 系统 输出 可 能 不 完全 一 样 。 
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为 了 简洁 ， 我 们 省 略 了 那些 指标 说 明 。 
avgrq-Sz 
请 求 的 扇 区 数 。 
avgqu-Sz 
在 设备 队列 中 等 待 的 请 求 数 。 
await | 
磁盘 排队 上 花费 的 毫秒 数 。 很 不 幸 ，iostat 没有 独立 统计 读 和 写 的 请 求 ， 它 们 实际 上 
不 应 该 被 一 起 平均 。 当 你 诊断 性 能 案例 时 这 通常 很 重要 。 


svctm 
服务 请 求 花费 的 毫秒 数 ， 不 包括 排队 时 间 。 
Sutil 


至 少 有 一 个 活跃 请 求 所 占 时 间 的 百分比 。 如 果 熟 悉 队 列 理论 中 利用 率 的 标准 定义 ， 
那么 这 个 命名 很 莫名 其 妙 。 它 其 实 不 是 设备 的 利用 率 。 超 过 一 块 硬盘 的 设备 (例如 
RAID 控制 器 ) 比 一 块 硬盘 的 设备 可 以 支持 更 高 的 并 发 ， 但 是 sutil 从 来 不 会 超过 
100%， 除 非 在 计算 时 有 四 舍 五 入 的 错误 。 因 此 ， 这 个 指标 无 法 真实 反映 设备 的 利用 
率 ， 实 际 上 跟 文档 说 的 相反 ， 除 非 只 有 一 块 物理 磁盘 的 特殊 例子 。 


可 以 用 iostat 的 输出 推断 某 些 关于 机 器 I/O 子 系统 的 实际 情况 。 一 个 重要 的 度量 标准 是 
请 求 服务 的 并 发 数 。 因 为 读 写 的 单位 是 每 秒 而 服务 时 间 的 单位 是 千 分 之 一 秒 ， 所 以 可 以 
利用 利 特 尔 法 则 (Little's Law) 得 到 下 面 的 公式 ， 计 算出 设备 服务 的 并 发 请 求 数 “”: 


concurrency = (r/s + w/s) * (svctm/1000) 
这 是 一 个 iostat 的 输出 示例 : 


Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-Sz await svctm %util 
sda 105 311 298 820 3236 9052 10 127 113 9 96 


把 数字 带 入 并 发 公式 ， 可 以 得 到 差不多 9.6 的 并 发 性 和。 这 意味 着 在 一 个 采样 周期 内 ， 
这 个 设备 平均 要 服务 9.6 次 的 请 求 。 例 子 来 自 于 一 个 10 块 盘 的 RAID 10%, MARRE 
系统 对 这 个 设备 的 并 行 请 求 运行 得 相当 好 。 另 一 方面 ， 这 是 一 个 出 现 串 行 请 求 的 设备 : 


Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util 
sdc 81 0280 0 3164 0 11 2 7 3 99 


FREAK TRARRE AU Tak. ATS MR Twa, (ee 


30: 另 一 种 计算 并 发 的 方式 是 通过 平均 队列 大 小 、 服 务 时 间 ， 以 及 平均 等 待 时 间 : (avuqu_sz * svctm) / 
await, l 

31: 如 果 你 做 这 个 计算 ， 会 得 到 大 约 10， 因 为 为 了 格式 化 我 们 已 经 取 整 了 iostai 的 输出 。 相 信 我 们 ， 
确实 是 9.6。 
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们 的 性 能 表现 完全 不 一 样 。 如 果 设 备 一 直 都 像 这 些 例子 展示 的 一 样 已， 那么 应 该 检查 一 
下 并 发 性 ， 不 管 是 不 是 接近 于 设备 中 的 物理 盘 数 ， 都 需要 注意 。 更 低 的 值 则 说 明 有 如 文 
件 系统 串 行 的 问题 ， 就 像 我 们 前 面 讨 论 的 。 


9.15.3 其 他 有 用 的 工具 


我 们 展示 vmstat 和 iostat 是 因为 它们 部 署 最 广泛 ， 并 且 vmstat 通 常 默 认 安 装 在 许多 类 
UNIX 操作 系统 上 。 然 而 ， 每 种 工具 都 有 自身 的 限制 ， 例 如 莫名 奇妙 的 度量 单位 、 当 操 
作 系 统 更 新 统计 时 取样 间隔 不 一 致 ， 以 及 不 能 一 次 性 看 到 所 有 重要 的 点 。 如 果 这 些 工具 
不 能 符合 需求 ， 你 可 能 会 对 dstat (http://dag.wieers.com/home-made/dstat/) 或 collectl 
(http://collectl.sourceforge.net) 感 兴趣 。 


我 们 也 喜欢 用 mpstat 来 观察 CPU 统计 ; 它 提供 了 更 好 的 办 法 来 观察 CPU 每 个 工作 是 如 
何 进行 的 ， 而 不 是 把 它们 搅 在 一 块 。 有 时 在 诊断 问题 时 这 非常 重要 。 当 分 析 硬 盘 I/O Al 
用 的 时 候 ，blktrace 可 能 也 非常 有 用 。 


我 们 自己 开发 了 iostat 的 替代 品 ， 叫 做 pt-diskstats。 这 是 Percona Toolkit 的 一 部 分 。 它 
解决 了 一 些 对 iostat 的 抱怨 ， 例 如 显示 读 写 统计 的 方式 ， 以 及 人 缺乏 对 并 发 量 的 可 见 性 。 
它 也 是 交互 式 的 ， 并 且 是 按键 驱动 的 ， 所 以 可 以 放大 缩小 、 改 变 聚 集 、 过 着 设备 ， 以 及 
显示 和 隐藏 列 。 即使 没有 安装 这 个 工具 ， 也 可 以 通过 简单 的 Shell 脚本 来 收集 一 些 硬盘 
统计 状态 ， 这 个 工具 也 支持 分 析 这 样 采 集 出 来 的 文本 。 可 以 抓 取 一 些 硬 盘活 动 样本 ， 然 
后 发 邮件 或 者 保存 起 来 ， 稍 后 分 析 。 实 际 上 ， 我 们 第 3 章 中 介绍 的 pt-stalk, pt-collect, 
和 pts 流 三 件 套 ， 都 被 设计 得 可 以 跟 pt-diskstats 很 好 地 配合 。 


9.15.4 CPU 密集 型 的 机 器 


CPU 密集 型 服务 器 的 vmstat 输出 通常 在 us 列 会 有 一 个 很 高 的 值 ， 报 告 了 花费 在 非 内 核 
代码 上 的 CPU 时 钟 ; 也 可 能 在 sy 列 有 很 高 的 值 ， 表 示 系 统 CPU 利用 率 ， 超 过 20% 就 
足以 令 人 不 安 了 。 在 大 部 分 情况 下 ， 也 会 有 进程 队列 排队 时 间 (在 r 列 报告 的 )。 下 面 
是 一 个 例子 : 
$ vmstat 5 
procs ----------- memory---------- ---SWap-- ----- io---- -- system-- ---- cpu---- 
r b swpd free buff cache si so bi bo in cs us sy idw 
10 2 740880 19256 46068 13719952 0 O 2788 11047 1423 14508 89 4 4 
11 0 740880 19692 46144 13702944 0 0 2907 14073 1504 23045 90 5 2 
7 1 740880 20460 46264 13683852 0 0 3554 15567 1513 24182 88 5 3 
10 2 740880 22292 46324 13670396 0 O 2640 16351 1520 17436 88 4 4 
注意 ， 这 里 也 有 合理 数量 的 上 下 文 切 换 (在 cs 列 ) ， 除 非 每 秒 超过 100 000 次 或 更 多 ， 
一 般 都 不 用 担心 上 下 文 切 换 。 当 操作 系统 停止 一 个 进程 转 而 运行 另 一 个 进程 时 ， 就 会 产 


a 
3 
3 
3 
3 
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生 上 下 文 切换 。 


例如 , 一 查询 语句 在 MyISAM 上 执行 了 一 个 非 覆盖 索引 扫描 , 就 会 先 从 索引 中 读 取 元 素 ， 
然后 根据 索引 再 从 磁盘 上 读 取 页 面 。 如 果 页 面 不 在 操作 系统 缓存 中 ， 就 需要 从 磁盘 进行 
物理 读 取 ， 这 就 会 导致 上 下 文 切换 中 断 进 程 处 理 ， 直 到 1/O 完成。 这样 一 个 查询 可 以 导 
致 大 量 的 上 下 文 切换 。 


如 果 我 们 在 同一 台 机 器 观察 iostat 的 输出 〈 再 次 剔除 显示 局 动 以 来 平均 值 的 第 一 行 )， 可 
以 发 现 磁盘 利用 率 低 于 50% : 


$ iostat -dx 5 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util 


sda O 3859 54 458 2063 34546 71 3 6 1 47 
dm-0 0 0 54 4316 2063 34532 8 18 4 0 47 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util 
sda O 2898 52 363 1767 26090 67 3 7 1 45 
dm-0 0 0 52 3261 1767 26090 8 15 5 0 45 


这 台 机 器 不 是 IO 密集 型 的 ， 但 是 依然 有 相当 数量 的 IO 发 生 ， 在 数据 库 服务 器 中 这 种 
情况 很 少见 。 另 一 方面 ， 传 统 的 Web 服务 器 会 消耗 大 量 CPU 资源 ， 但 是 很 少 发 生 VO, 
所 以 Web 服务 器 的 输出 不 会 像 这 个 例子 。 


9.15.5 O 密集 型 的 机 器 
在 IO 密集 型 工作 负载 下 ，CPU 花费 大 量 时 间 在 等 待 1/O 请 求 完 成 。 这 意味 着 vmstat 会 
显示 很 多 处 理 器 在 非 中 断 休眠 (b 列 ) 状态 , 并 且 在 wa 这 一 列 的 值 很 高 , 下面 是 个 例子 : 


$ vmstat 5 | 

procs ----------- memory---------- ---SWap-- ----- OS ee system-- ---- cpu---- 
r b swpd free buff cache si so bi bo in cs us sy id wa 
5 7 740632 22684 43212 13466436 0 0 6738 17222 1738 16648 19 3 15 63 
5 7 740632 22748 43396 13465436 0 O 6150 17025 1731 16713 18 4 21 58 
1 8 740632 22380 43416 13464192 0 O 4582 21820 1693 15211 16 4 24 56 
5 6 740632 22116 0 O 5955 21158 1732 16187 17 4 23 56 


43512 13463484 
这 台 机 器 的 iostat 输出 显示 硬盘 一 直 很 忙 : *” 


$ iostat -dx 5 


Device: rrqm/s wrqm/s 


r/s w/s rsec/s 


wsec/s avgrq-Sz avgqu-sz await svctm %util 


sda O 5396 202 626 7319 48187 66 12 14 1 101 
dm-0 0 0 202 6016 7319 48130 8 57 9 0 101 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util 
sda O 5810 184 665 6441 51825 68 11 13 1 102 
dm-0 0 0 183 6477 6441 51817 8 54 7 0 102 


注 32: 
因为 它们 可 能 也 能 支持 一 些 并 发 。 


在 书 的 第 二 版 中 ,我 们 混 消 了 “总 是 很 已 ”和 “完全 饱和 。 


总 是 在 做 事 的 硬盘 并 不 总 是 达到 极限 ， 


9.15 操作 系统 状态 | 429 


‘util 的 值 可 能 因为 四 舍 五 和 人 的 错误 超过 100%。 什 么 迹象 意味 着 机 器 是 IO 密集 的 呢 ? 
只 要 有 足够 的 缓冲 来 服务 写 请 求 ， 即 使 机 器 正在 做 大 量 的 写 操作 ， 也 可 能 可 以 满足 ， 但 
是 却 通 党 意 味 着 硬盘 可 能 会 无 法 满足 读 请 求 。 这 听 起 来 好 象 违反 直觉 ， 但 是 如 果 思 考 读 
和 写 的 本 质 ， 就 不 会 这 么 认为 了 : 


© 写 请 求 能 够 缓冲 或 同步 操作 。 它 们 可 以 被 我 们 本 书 讨 论 过 的 任意 一 层 缓冲 : 操作 系 
统 层 、RAID 控制 器 层 ， 等 等 。 

。 读 请 求 就 其 本 质 而 言 都 是 同步 的 。 当 然 程序 可 以 猜测 到 可 能 需要 某 些 数据 ， 并 异步 
地 提前 读 取 〈 预 读 ) 。 无 论 如 何 ， 通 常 程序 在 继续 工作 前 必须 得 到 它们 需要 的 数据 。 
这 就 强制 读 请 求 为 同步 操作 : 程序 必须 被 阻塞 直到 请 求 完 成 。 


想 想 这 种 方式 : 你 可 以 发 出 一 个 写 请 求 到 缓冲 区 的 某 个 地 方 ， 然 后 过 一 会 完成 。 甚 至 可 
以 每 秒 发 出 很 多 这 样 的 请 求 。 如 果 缓 冲 区 正确 工作 ， 并 且 有 足够 的 空间 ， 每 个 请 求 都 可 
以 很 快 完成 ， 并 且 实 际 上 写 到 物理 硬盘 是 被 重新 排序 后 更 有 效 地 批量 操作 的 。 然 而 ， 没 
有 办 法 对 读 操作 这 么 做 一 一 不 管 多 小 或 多 少 的 请 求 ， 都 不 可 能 让 硬盘 响应 说 “这 是 你 的 
数据 ， 我 等 一 会 读 它 。 这 就 是 为 什么 读 需 要 VO 等 待 是 可 以 理解 的 原因 。 


9.15.6 发 生 内 存 交换 的 机 器 

一 台 正 在 发 生 内 存 交 换 的 机 器 可 能 在 swpd 列 有 一 个 很 高 的 值 ， 也 可 能 不 高 。 但 是 可 以 看 
到 si 和 so 列 有 很 高 的 值 ， 这 是 我 们 不 希望 看 到 的 。 下 面 是 一 台 内 存 交换 严重 的 机 器 的 
vmstat 输出 : 





$ vmstat 5 

procs ----------- memory------------- --- swap---- ----- O == system-- ---- cpu---- 
r b swpd free buff ‘cache si so bi bo in cs us sy id wa 
O 10 3794292 24436 27076 14412764 19853 9781 57874 9833 4084 8339 6 14 58 22 
4 11 3797936 21268 27068 14519324 15913 30870 40513 30924 3600 7191 6 11 36 47 
0 37 3847364 20764 27112 14547112 171 38815 22358 39146 2417 4640 6 8 9 77 


9.15.7 ZAHL 
为 完整 起 见 ， 下 面 也 给 出 一 台 空 闲 机 器 上 的 vmstat 输出 。 注 意 ， 没 有 在 运行 或 被 阻塞 的 


进程 ，idte 列 显示 CPU 是 100% 的 空 辣 。 这 个 例子 来 源 于 一 台 运 行 红帽子 企业 版 Linux © 


5 (RHEL 5) 的 机 器 ， 并 且 st 列 展示 了 从 “虚拟 机 ” 偷 来 的 时 间 。 
$ vmstat 5 
r b swpd free buff cache si s bi bo in cs us sy id wa st 
` 108 492556 6768 360092 0 345 209 2 65 2 09710 


0 
0 0 0 
0 0 108 492556 6772 360088 0 0 0 14 357 19 0 0100 0 0 
0 0 108 492556 6776 360084 0 0 0 6 355 16 0 0100 0 0 
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9.16 BA 


A MySQL 选择 和 配置 硬件 , 以 及 根据 硬件 配置 MySQL, 并 不 是 什么 神秘 的 艺术 。 通 常 ， 
对 于 大 部 分 目标 需要 的 都 是 相同 的 技巧 和 知识 。 当 然 ， 也 需要 知道 一 些 MySQL 特有 的 
特点 。 


我 们 通常 建议 大 部 分 人 在 性 能 和 成 本 之 间 找 到 一 个 好 的 平衡 点 。 首 先 ， 出 于 多 种 原因 ， 
我 们 喜欢 使 用 廉价 服务 器 。 举 个 例子 ， 如 果 在 使 用 服务 器 的 过 程 中 遇 到 了 麻烦 ， 并 且 在 
诊断 时 需要 停止 服务 ， 或 者 希望 只 是 简单 地 把 出 问题 的 服务 器 用 另 一 台 蔡 换 ， 如 果 使 用 
的 是 一 台 $5 000 的 廉价 服务 器 ， 肯 定 比 使 用 一 台 超 过 $50 000 或 者 更 贵 的 服务 器 要 简单 
得 多 。MySQL 通常 也 更 适应 廉价 服务 器 ， 不 管 是 从 软件 自身 而 言 还 是 从 典型 的 工作 负 
载 而 言 。 

MySQL 需要 的 四 种 基本 资源 是 : CPU、 内 存 、 硬 盘 以 及 网 络 资源 。 网 络 一 般 不 会 作为 
很 严重 的 瓶颈 出 现 ， 而 CPU、 内 存 和 磁盘 通常 是 主要 的 瓶颈 所 在 。 对 MySQL 而 言 ， 通 
常 希 望 有 很 多 快速 CPU 可 以 用 ， 但 如 果 必 须 在 快 和 多 之 间 做 选择 ， 则 一 般 会 选择 更 快 而 
不 是 更 多 (其 他 条 件 相 同 的 情况 下 )。 


CPU、 内 存 以 及 磁盘 之 间 的 关系 错综复杂 ， 一 个 地 方 的 问题 可 能 会 在 其 他 地 方 显现 出 来 。 
在 对 一 个 资源 抛 出 问题 时 ， 间 问 自己 是 不 是 可 能 是 由 另外 的 问题 导致 的 。 如 果 遇 到 硬盘 
密集 的 操作 ， 需 要 更 多 的 1/0 容量 吗 ? 或 者 是 更 多 的 内 存 ? 答案 取决 于 工作 集 大 小 ,也 
就 是 给 定 的 时 间 内 最 常用 的 数据 集 。 


在 本 书写 作 的 过 程 中 ， 我 们 觉得 以 下 做 法 是 合理 的 。 首 先 ， 通常 不 要 超过 两 个 插 模 。 现 


在 即使 双 路 系统 也 可 以 提供 很 多 CPU 核心 和 硬件 线程 了 ， 而 且 四 路 服务 器 的 CPU Bit. 


得 多 。 另 外 ， 四 路 CPU 的 使 用 不 够 广泛 〈 也 就 意味 着 缺少 测试 和 可 靠 性 ) ， 并 且 使 用 的 
是 更 低 的 时 钟 频率 。 最 终 ， 四 路 插 槽 的 系统 跨 插 槽 的 同步 开销 也 显著 增加 。 在 内 存 方 
面 ， 我 们 喜欢 用 价格 经 济 的 服务 器 内 存 。 许 多 廉价 服务 器 目前 有 18 个 DIMM 槽 ， 单 条 
8GB 的 DIMM 是 最 好 的 选择 一 一 每 GB 的 价格 与 更 低 容量 的 DIMM 相 比 差不多 ， 但 是 


比 16GB BY DIMM 便宜 多 了 。 ee 是 144GB 的 内 存 的 


原因 。 这 个 等 式 会 随 着 时 间 的 变化 而 变 能 有 一 天 具有 最 佳 性 价 比 的 是 16GB 的 
DIMM， 并 且 服 务 器 出 广 e nace 


持久 化 存储 的 选择 本 质 上 归结 为 三 个 选项 ， 以 提高 性 能 的 次 序 排序 : SAN、 传 统 硬盘 ， 

以 及 固态 存储 设备 。 

。 当 需 要 功能 和 纯粹 的 容量 时 ，SAN 是 不 错 的 。 它 们 对 许多 工作 负载 都 运行 得 不 错 ， 
但 缺点 古 很 昂 贯 ， 并 且 对 小 的 随机 I/O 操作 有 很 大 的 延 时 ， 尤 其 是 使 用 更 慢 的 互联 
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AA (NFS) 或 工作 集 太 大 不 足以 匹配 SAN 内 存 的 缓存 时 ， 延 时 会 更 大 。 要 注 
意 SAN 的 性 能 突变 的 情况 ， 并 且 要 非常 小 心 避免 灾难 的 场景 。 

。 传统 硬盘 很 大 ， 便宜， 但 是 对 随机 读 很 慢 。 对 大 部 分 场景 ， 最 好 的 选择 是 服务 器 硬 
盘 组 成 RAID 10 卷 。 通 常 应 该 使 用 带 有 电池 保护 单元 的 RAID 控制 器 ， 并 且 设 置 写 
缓存 为 WriteBack 策略 。 这 样 一 个 配置 对 大 部 分 工作 负载 都 可 以 运行 良好 。 

。 固态 盘 相 对 比较 小 并 且 昂 贵 ， 但 是 随机 IO 非常 快 。 一 般 分 为 两 类 : SSD 和 PCIe ik 
g. 广泛 地 来 说 ，SSD 更 便宜 ， 更 慢 ， 但 缺少 可 靠 性 验证 。 需 要 对 SSD 做 RAID 以 
提升 可 靠 性 ， 但 是 大 多 数 硬 件 RAID 控制 器 不 擅长 这 个 任务 和 ”。PCTIe 设备 很 昂贵 并 
且 有 容量 限制 ， 但 是 非常 快 并 且 可 靠 ， 而 且 不 需要 RAID。 


固态 存储 设备 可 以 很 大 地 提升 服务 器 整体 性 能 。 有 了 时候 一 个 不 算 昂贵 的 SSD， 可 以 帮助 
解决 经 常 在 传统 硬盘 上 遇 到 的 特定 工作 负载 的 问题 ， 如 复制 。 如 果真 的 需要 很 强 的 性 能 ， 
应 该 使 用 PCIe 设备 。 增 加 高 速 1/0 设备 会 把 服务 器 的 性 能 瓶颈 转移 到 CPU， 有 时 也 会 
转移 到 网 络 。 


MySQL 和 InnoDB 并 不 能 完全 发 挥 高 端 固态 存储 设备 的 性 能 ， 并 且 在 茶 些 场景 下 操作 系 
统 也 不 能 发 挥 。 但 是 提升 依然 很 明显 。Percona Server 对 固态 存储 做 了 很 多 改进 ， 并 且 
很 多 改进 在 5.6 发 布 时 已 经 进入 了 MySQL 主干 代码 。 


对 操作 系统 而 言 ， 只 有 很 少 的 一 些 重要 配置 需要 关注 ， 大 部 分 是 关于 存储 、 网 络 和 虚拟 
内 存 管理 的 。 如 果 像 大 部 分 MySQL 用 户 一 样 使 用 GNU/Linux, 建议 采用 XFS 文件 系统 ， 
并 且 为 服务 器 的 页 面 交 换 倾 向 率 (swapiness) 和 硬盘 队列 调度 器 设置 恰当 的 值 。 有 一 些 
网 络 参 数 需 要 改变 ， 可 能 还 有 一 些 其 他 的 地 方 〈 例 如 禁用 SELinux) 需要 调 优 ， 但 是 前 
面 说 的 那些 改动 的 优先 级 应 该 更 高 一 些 。 


233: 有 些 RAID 控制 器 对 SSD 支持 很 差 ， 做 了 RAID 性 能 下 降 。 一 一 译 者 注 
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第 10 章 


复制 


MySQL 内 建 的 复制 功能 是 构建 基于 MySQL 的 大 规模 、 高 性 能 应 用 的 基础 ， 这 类 应 用 使 
用 所 谓 的 “水 平 扩展 ”的 架构 。 我 们 可 以 通过 为 服务 器 配置 一 个 或 多 个 备 库 “! 的 方式 来 
进行 数据 同步 。 复 制 功 能 不 仅 有 利于 构建 高 性 能 的 应 用 ， 同 时 也 是 高 可 用 性 、 可 扩展 性 、 
灾难 恢复 、 备 份 以 及 数据 仓库 等 工作 的 基础 。 事 实 上 ， 可 扩展 性 和 高 可 用 性 通常 是 相关 
联 的 话题 ， 我 们 会 在 接 下 来 的 三 章 详细 阐述 。 


本 章 将 阐述 所 有 与 复制 相关 的 内 容 ， 首 先 简要 介绍 复制 如 何 工 作 ， 然 后 讨论 基本 的 复制 
服务 搭建 ， 包 括 与 复制 相关 的 配置 以 及 如 何 管理 和 优化 复制 服务 器 。 虽 然 本 书 的 主题 是 
高 性 能 ， 但 对 于 复制 来 说 ， 我 们 同样 需要 关注 其 准确 性 和 可 靠 性 ， 因 此 我 们 也 会 讲述 复 
制 在 什么 情况 下 会 失败 ， 以 及 如 何 使 其 更 好 地 工作 。 


10.1 复制 概述 


复制 解决 的 基本 问题 是 让 一 台 服 务 器 的 数据 与 其 他 服务 器 保持 同步 。 一 台 主 库 的 数据 可 
以 同步 到 多 台 备 库 上 ， 备 库 本 身 也 可 以 被 配置 成 另外 一 台 服 务 器 的 主 库 。 主 库 和 备 库 之 
间 可 以 有 多 种 不 同 的 组 合 方 式 。 


MySQL 支持 两 种 复制 方式 : 基于 行 的 复制 和 基于 语句 的 复制 。 基 于 语句 的 复制 (也 称 

为 逻辑 复制 ) 早 在 MySQL 3.23 版 本 中 就 存在 ， 而 基于 行 的 复制 方式 在 5.1 版 本 中 才 被 

加 进来 。 这 两 种 方式 都 是 通过 在 主 库 上 记录 二 进 制 日 志 寺 2:、 在 备 库 重 放 日 志 的 方式 来 实 

现 异 步 的 数据 复制 。 这 意味 着 ， 在 同一 时 间 点 备 库 上 的 数据 可 能 与 主 库 存在 不 一 致 ， 并 
且 无 法 保证 主 备 之 间 的 延迟 。 一 些 大 的 语句 可 能 导致 备 库 产生 几 秒 、 几 分 钟 甚至 几 个 小 

时 的 延迟 。 


注 1: 可 能 有 些 地 方 将 会 复制 备 库 (replica) 称 为 从 库 (slave)， 这 里 我 们 尽量 避免 这 种 叫 法 。 
注 2: 如果 对 二 进 制 日 志 感 到 陌生 ， 可 以 在 第 8 章 、 本 章 剩 下 的 部 分 以 及 第 15 章 获 得 更 多 的 信息 。 
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MySQL 复制 大 部 分 是 向 后 兼容 的 ， 新 版 本 的 服务 器 可 以 作为 老 版 本 服务 器 的 备 库 ， 但 
反 过 来 ， 将 老 版 本 作为 新 版 本 服务 器 的 备 库 通常 是 不 可 行 的 ， 因 为 它 可 能 无 法 解析 新 版 
本 所 采用 的 新 的 特性 或 语法 ， 另 外 所 使 用 的 二 进 制 文件 的 格式 也 可 能 不 相同 。 例 如 ， 不 
能 从 MySQL 5.1 复制 到 MySQL 4.0。 在 进行 大 的 版 本 升级 前 ， 例 如 从 4.1 升级 到 5.0, 
或 从 5.1 升级 到 5.5， 最 好 先 对 复制 的 设置 进行 测试 。 但 对 于 小 版 本 号 升级 ， 如 从 5.1.51 
升级 到 5.1.58， 则 通常 是 兼容 的 。 通 过 阅读 每 次 版 本 更 新 的 ChangeLog 可 以 找到 不 同 版 
本 间 做 了 什么 修改 。 


复制 通常 不 会 增加 主 库 的 开销 ， 主 要 是 启用 二 进 制 日 志 带 来 的 开销 ， 但 出 于 备份 或 及 时 
从 崩溃 中 恢复 的 目的 ， 这 点 开销 也 是 必要 的 。 除 此 之 外 ， 每 个 备 库 也 会 对 主 库 增 加 一 些 
负载 (例如 网 络 IO 开销 )， 尤 其 当 备 库 请 求 从 主 库 读 取 旧 的 二 进 制 日 志文 件 时 ， 可 能 会 
造成 更 高 的 1/O 开销 。 另 外 锁 竞 争 也 可 能 阻碍 事务 的 提交 。 最 后 ， 如 果 是 从 一 个 高 吞吐 
量 (例如 5 000 或 更 高 的 TPS) 的 主 库 上 复制 到 多 个 备 库 ， 唤 醒 多 个 复制 线程 发 送 事 件 
的 开销 将 会 累加 。 


通过 复制 可 以 将 读 操作 指向 备 库 来 获得 更 好 的 读 扩展 ， 但 对 于 写 操 作 ， 除 非 设 计 得 当 ， 
否则 并 不 适合 通过 复制 来 扩展 写 操作 。 在 一 主 库 多 备 库 的 架构 中 ， 写 操作 会 被 执行 多 次 ， 
这 时 候 整个 系统 的 性 能 取决 于 写 入 最 慢 的 那 部 分 。 


当 使 用 一 主 库 多 备 库 的 架构 时 ， 可 能 会 造成 一 些 浪费 ， 因 为 本 质 上 它 会 复制 大 量 不 必要 
的 重复 数据 。 例 如 ， 对 于 一 台 主 库 和 10 ERRE, 会 有 11 份 数据 拷贝 ， 并 且 这 11 台 服 务 
器 的 缓存 中 存储 了 大 部 分 相同 的 数据 。 这 和 在 服务 器 上 有 11 BRAID 1 类 似 。 这 不 是 一 
种 经 济 的 硬件 使 用 方式 ,但 这 种 复制 架构 却 很 常见 ,本章 我 们 将 讨论 解决 这 个 问题 的 方法 。 


10.1.1 复制 解决 的 问题 


下 面 是 复制 比较 常见 的 用 途 : 


数据 分 布 
MySQL 复制 通常 不 会 对 带宽 造成 很 大 的 压力 ， 但 在 5.1 版 本 引入 的 基于 行 的 复制 会 
比 传统 的 基于 语句 的 复制 模式 的 带宽 压力 更 大 。 你 可 以 随意 地 停止 或 开始 复制 ， 并 
在 不 同 的 地 理 位 置 来 分 布 数据 备份 ， 例 如 不 同 的 数据 中 心 。 即 使 在 不 稳定 的 网 络 环 
境 下 ， 远 程 复制 也 可 以 工作 。 但 如 果 为 了 保持 很 低 的 复制 延迟 ， 最 好 有 一 个 稳定 的 、 
低 延 迟 连接 。 

负载 均衡 
通过 MySQL 复制 可 以 将 读 操作 分 布 到 多 个 服务 器 上 ， 实 现 对 读 密集 型 应 用 的 优化 ， 
并 且 实 现 很 方便 ， 通 过 简单 的 代码 修改 就 能 实现 基本 的 负载 均衡 。 对 于 小 规模 的 应 
用 ， 可 以 简单 地 对 机 器 名 做 硬 编码 或 使 用 DNS 轮 询 〈 将 一 个 机 器 名 指向 多 个 IP 地 
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址 ) 。 当 然 也 可 以 使 用 更 复杂 的 方法 ， 例 如 网 络 负载 均衡 这 一 类 的 标准 负载 均衡 解决 
方案 , 能 够 很 好 地 将 负载 分 配 到 不 同 的 MySQL 服务 器 上 。Linux 虚拟 服务 器 (Linux 
Virtual Server, LVS) 也 能 够 很 好 地 工作 ， 第 11 章 将 详细 地 讨论 负载 均衡 。 

备份 | | 

对 于 备份 来 说 ， 复 制 是 一 项 很 有 意义 的 技术 补充 ， 但 复制 既 不 是 备份 也 不 能 够 取代 
备份 。 

高 可 用 性 和 故障 切换 | 
复制 能 够 帮助 应 用 程序 避免 MySQL 单 点 失败 ， 一 个 包含 复制 的 设计 良好 的 故障 切 
换 系 统 能 够 显著 地 缩短 宕 机 时 间 ， 我 们 将 在 第 12 章 讨论 故障 切换 。 

MySQL 升级 测试 
这 种 做 法 比较 普遍 , 使 用 一 个 更 高 版 本 的 MySQL 作为 备 库 , 保证 在 升级 全 部 实例 前 ， 
查询 能 够 在 备 库 按照 预期 执行 。 


10.1.2 复制 如 何 工作 
在 详细 介绍 如 何 设置 复制 之 前 ， 让 我 们 先 看 看 MySQL 实际 上 是 如 何 复制 数据 的 。 总 的 
来 说 ,复制 有 三 个 步骤 : 


1. 在 主 库 上 把 数据 更 改 记录 到 二 进 制 日 志 (Binary Log) 中 (这 些 记 录 被 称 为 二 进 制 
日 志 事 件 )。 

2. 备 库 将 主 库 上 的 日 志 复 制 到 自己 的 中 继 日 志 (Relay Log) F. 

3. 备 库 读 取 中 继 日 志 中 的 事件 ， 将 其 重 放 到 备 库 数据 之 上 。 


以 上 只 是 概述 ， 实 际 上 每 一 步 都 很 复杂 ， 图 10-1 更 详细 地 描述 了 复制 的 细节 。 
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第 一 步 是 在 主 库 上 记录 二 进 制 日 志 ( 稍 后 介绍 如 何 设置 )。 在 每 次 准备 提交 事务 完成 数 
据 更 新 前 ， 主 库 将 数据 更 新 的 事件 记录 到 二 进 制 日 志 中 。MySQL 会 按 事务 提交 的 顺序 
而 非 每 条 语句 的 执行 顺序 来 记录 二 进 制 日 志 。 在 记录 二 进 制 日 志 后 ， 主 库 会 告诉 存储 引 
擎 可 以 提交 事务 了 。 


下 一 步 ， 备 库 将 主 库 的 二 进 制 日 志 复 制 到 其 本 地 的 中 继 日 志 中 。 首 先 ， 备 库 会 启动 一 个 
工作 线程 ， 称 为 WO 线程 ，I/O 线程 跟 主 库 建立 一 个 普通 的 客户 端 连接 ， 然 后 在 主 库 上 启 
动 一 个 特殊 的 二 进 制 转 储 (binlog dump) 线程 (该 线程 没有 对 应 的 SQL 命令 )， 这 个 二 
进 制 转 储 线程 会 读 取 主 库 上 二 进 制 日 志 中 的 事件 。 它 不 会 对 事件 进行 轮 询 。 如 果 该 线程 
追赶 上 了 主 库 ， 它 将 进入 睡眠 状态 ， 直 到 主 库 发 送信 号 量 通 知 其 有 新 的 事件 产生 时 才 会 
UME, BE IO 线程 会 将 接收 到 的 事件 记录 到 中 继 日 志 


MySQL 4.0 之 前 的 复制 与 之 后 的 版 本 相 比 改变 很 大 ， 例 如 MySQL 最 初 的 复制 功能 

~ S 没有 使 用 中 继 日 志 ， 所 以 复制 只 用 到 了 两 个 线程 ， 而 不 是 现在 的 三 个 线程 。 目 前 大 
部 分 人 都 是 使 用 的 最 新 版 本 ， 因 此 在 本 章 我 们 不 会 去 讨论 关于 老 版 本 复制 的 更 多 细 
节 。 


备 库 的 SQL 线程 执行 最 后 一 步 ， 该 线程 从 中 继 日 志 中 读 取 事件 并 在 备 库 执行 ， 从 而 实现 
备 库 数据 的 更 新 。 当 SQL 线程 追赶 上 I/O 线程 时 ， 中 继 日 志 通 常 已 经 在 系统 缓存 中 ， 所 
以 中 继 日 志 的 开销 很 低 。SQL 线程 执行 的 事件 也 可 以 通过 配置 选项 来 决定 是 否 写 和 人 其 目 


` 己 的 二 进 制 日 志 中 ， 它 对 于 我 们 稍 后 提 到 的 场景 非常 有 用 。 


图 10-1 显示 了 在 备 库 有 两 个 运行 的 线程 ， 在 主 库 上 也 有 一 个 运行 的 线程 : 和 其 他 普通 连 
接 一 样 ， 由 备 库 发 起 的 连接 ， 在 主 库 上 同样 拥有 一 个 线程 。 

这 种 复制 架构 实现 了 获取 事件 和 重 放 事件 的 解 耦 ， 人 允许 这 两 个 过 程 异 步 进行 。 也 就 是 说 
I/O 线程 能 够 独立 于 SQL 线程 之 外 工作 。 但 这 种 架构 也 限制 了 复制 的 过 程 ， 其 中 最 重要 
的 一 点 是 在 主 库 上 并 发 运行 的 查询 在 备 库 只 能 串 行 化 执行 ， 因 为 只 有 一 个 SQL 线程 来 重 
放 中 继 日 志 中 的 事件 。 后 面 我 们 将 会 看 到 ， 这 是 很 多 工作 负载 的 性 能 瓶颈 所 在 。 虽 然 有 
一 些 针对 该 问题 的 解决 方案 ， 但 大 多 数 用 户 仍 然 受 制 于 单线 程 。 


10.2 配置 复制 


为 MySQL 服务 器 配置 复制 非常 简单 。 但 由 于 场景 不 同 ， 基 本 的 步骤 还 是 有 所 差异 。 最 
基本 的 场景 是 新 安装 的 主 库 和 备 库 ， 总 的 来 说 分 为 以 下 几 步 : 
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l. EERE 服务 器 上 创建 复制 账号 。 
2. 配置 主 库 和 备 库 。 
3. 通知 备 库 连 接 到 主 库 并 从 主 库 复 制 数据 。 


这 里 我 们 假定 大 部 分 配置 采用 默认 值 即 可 ， 在 主 库 和 备 库 都 是 全 新 安装 并 且 拥 有 同样 
的 数据 (默认 My5QL 数据 库 ) 时 这 样 的 假设 是 合理 的 。 接 下 来 我 们 将 展示 如 何 一 步 步 
配置 复制 : 假设 有 服务 器 serverl (IP 地 址 192.168.0.1) 和 服务 器 server2 (IP 地 址 
192.168.0.2) ， 我 们 将 解释 如 何 给 一 个 已 经 运行 的 服务 器 配置 备 库 ， 并 探讨 推荐 的 复制 配 
置 。 


10.2.1 创建 复制 账号 
MySQL 会 赋予 一 些 特殊 的 权限 给 复制 线程 。 在 备 库 运行 的 IO 线程 会 建立 一 个 到 主 库 的 
TCP/IP 连接 ， 这 意味 着 必须 在 主 库 创 建 一 个 用 户 ， 并 赋予 其 合适 的 权限 。 备 库 IO 线程 
以 该 用 户 名 连接 到 主 库 并 读 取 其 二 进 制 日 志 。 通 过 如 下 语句 创建 用 户 账号 : 

mysql> GRANT REPLICATION SLAVE, REPLICATION CLIENT ON *.* 

-> TO repl1@'192.168.0.%' IDENTIFIED BY ‘p4ssword',; 

我 们 在 主 库 和 备 库 都 创建 该 账号 。 注 意 我 们 把 这 个 账户 限制 在 本 地 网 络 ， 因 为 这 是 一 个 
特权 账号 (尽管 该 账号 无 法 执行 select 或 修改 数据 ， 但 仍然 能 从 二 进 制 日 志 中 获得 一 些 
数据 )。 


iF RA 

ress | 复制 账户 事实 上 只 需要 有 主 库 上 的 REPLICATION SLAVE 权限， 并 不 一 定 需要 每 一 端 

K 。 服 务 器 都 有 REPLICATION CLIENT 权限 ， 那 为 什么 我 们 要 把 这 两 种 权限 给 主 / 备 库 都 
V RTE? 这 有 两 个 原因 : 


用 来 监控 和 管理 复制 的 账号 需要 REPLICATION CLIENT 权限 ， 并 且 针 对 这 两 种 目 
的 使 用 同一 个 账号 更 加 容易 (而 不 是 为 某 个 目的 单独 创建 一 个 账号 )。 

如 果 在 主 库 上 建立 了 账号 ， 然 后 从 主 库 将 数据 克隆 到 备 库 上 时 ， 备 库 也 就 设置 好 
了 一 一 变 成 主 库 所 需要 的 配置 。 这 样 后 续 有 需要 可 以 方便 地 交换 主 备 库 的 角色 。 





10.2.2 配置 主 库 和 备 库 
下 一 步 需 要 在 主 库 上 开启 一 些 设置 ， 假 设 主 库 是 服务 器 server1， 需 要 打开 二 进 制 日 志 
并 指定 一 个 独一无二 的 服务 器 ID (server ID) ， 在 主 库 的 my.cnf 文 件 中 增加 或 修改 如 下 


内 容 : 
注 3 : ”严格 来 讲 这 不 是 必需 的 ， 但 我 们 推荐 这 么 做 ， 稍 后 我 们 会 解释 为 什么 。 
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log bin = mysql-bin 
server id = 10 


实际 取 值 由 你 决定 ， 这 里 只 是 为 了 简单 起 见 ， 当 然 也 可 以 设置 更 多 需要 的 配置 。 


必须 明确 地 指定 一 个 唯一 的 服务 器 ID ， 默 认 服 务 器 ID 通常 为 1 (这 和 版 本 相关 ， 一些 
MySQL 版 本 根本 不 允许 使 用 这 个 值 )。 使 用 默认 值 可 能 会 导致 和 其 他 服务 器 的 ID 冲突 ， 
因此 这 里 我 们 选择 10 来 作为 服务 器 ID。 一 种 通用 的 做 法 是 使 用 服务 器 IP 地 址 的 末 8 位， 
但 要 保证 它 是 不 变 且 唯一 的 (例如 ， 服 务 器 都 在 一 个 子 网 里 )。 最 好 选择 一 些 有 意义 的 
约定 并 遵循 。 


如 果 之 前 没有 在 MySQL 的 配置 文件 中 指定 log-bin 选项 ， 就 需要 重新 启动 MySQL。 为 
了 确认 二 进 制 日 志文 件 是 否 已 经 在 主 库 上 创建 ， 使 用 SHOW MASTER STATUS 命令 ， 检 查 输 
出 是 否 与 如 下 的 一 致 。MySQEL 会 为 文件 名 增加 一 些 数 字 ， 所 以 这 里 看 到 的 文件 名 和 你 
定义 的 会 有 点 不 一 样 。 


nysql> SHOW MASTER Hebe 


| File Position | Binlog Do DB | Binlog Ignore DB | 
+------------------ +----------+-------------- +------------------ + 
| mysql-bin.000001 | 98 | | | 
------------------ +----------+--------------+------------------+ 
row in set (0.00 sec) 


备 库 上 也 需要 在 my.cnf 中 增加 类 似 的 配置 ， 并 且 同 样 需要 重启 服务 器 。 


log_bin = mysql-bin 

server_id = 2 

relay log = /var/lib/mysql/mysql-relay-bin 
log slave_updates = 1 

read only = 1 


从 技术 上 来 说 ,这 些 选 项 并 不 总 是 必要 的 。 其 中 一 些 选 项 我 们 只 是 显 式 地 列 出 了 默认 值 。 
事实 上 只 有 server_id 是 必需 的 。 这 里 我 们 同样 也 使 用 了 Log_bin， 并 赋予 了 一 个 明确 
的 名 字 。 上 默认 情况 下 ， 它 是 根据 机 器 名 来 命名 的 ， 但 如 果 机 器 名 变化 了 可 能 会 导致 问题 。 
为 了 简便 起 见 ， 我 们 将 主 库 和 备 库 上 的 Log-bin 设置 为 相同 的 值 。 当 然 如 果 你 愿意 的 话 ， 
也 可 以 设置 成 别 的 值 。 


另外 我 们 还 增加 了 两 个 配置 选项 ; relay_log (指定 中 继 日 志 的 位 置 和 命名 ) Flog. 
slave updates (允许 备 库 将 其 重 放 的 事件 也 记录 到 自身 的 二 进 制 日 志 中 )， 后 一 个 选项 
会 给 备 库 增加 额外 的 工作 ,但 正如 后 面 将 会 看 到 的 ， 我们 有 理由 为 每 个 备 库 设置 该 选项 。 


有 时候 只 开启 了 二 进 制 日 志 ， 但 却 没 有 开启 log slave updates， 可 能 会 磁 到 一 些 奇 怪 
的 现象 ， 例 如 ， 当 配置 错误 时 可 能 会 导致 备 库 数据 被 修改 。 如 果 可 能 的 话 ， 最 好 使 用 


438 | 第 10 章 复制 


read_only 配置 选项 ， 该 选项 会 阻止 任何 没有 特权 权限 的 线程 修改 数据 (所 以 最 好 不 要 
给 予 用 户 超出 需要 的 权限 )。 但 read only 选项 常常 不 是 很 实用 ， 特 别 是 对 于 那些 需要 在 
备 库 建 表 的 应 用 。 


q 不 要 在 配置 文件 my.cnf 中 设置 master_port 或 master_host 这 些 选项 ， 这 是 老 的 配置 
hy 方式， 已 经 被 废弃 ， 它 只 会 导致 问题 ， 不 会 有 任何 好 处 。 





10.2.3 启动 复制 

下 一 步 是 告诉 备 库 如 何 连 接 到 主 库 并 重 放 其 二 进 制 日 志 。 这 一 步 不 要 通过 修改 my.cnf 来 
配置 ， 而 是 使 用 CHANGE MASTER T0 语句 ， 该 语句 完全 替代 了 my.cnf 中 相应 的 设置 ， 并 
且 允 许 以 后 指向 别 的 主 库 时 无 须 重启 备 库 。 下 面 是 开始 复制 的 基本 命令 : 


mysql> CHANGE MASTER TO MASTER_HOST='server1', 
-> MASTER_USER='repl', 
-> MASTER_PASSWORD=' p4ssword' , 
-> MASTER LOG FILE='mysql-bin.000001' , 
-> MASTER LOG POS=0; 


MASTER LOG POS 参数 被 设置 为 0， 因为 要 从 日 志 的 开头 读 起 。 当 执行 完 这 条 语句 后 ， 可 
以 通过 SHOW SLAVE STATUS 语句 来 检查 复制 是 否 正确 执行 。 


mysql> SHOW SLAVE STATUS\G 
SORES q rgy Eok kkk kkk 
Slave I0 State:. 
Master Host: server1 
Master User: repl 
Master Port: 3306 
Connect_Retry: 60 
Master Log File: mysql-bin.000001 
Read Master_Log Pos: 4 7 
Relay Log File: mysql-relay-bin.000001 
Relay Log Pos: 4 
Relay Master Log File: mysql-bin.000001 
Slave IO Running: No 
Slave SQL Running: No 
.. omitted... 
Seconds Behind Master: NULL 


Slave IO State, Slave I0 Running 和 Slave SQL Running 这 三 列 显示 当前 备 库 复制 尚 
未 运行 。 聪 明 的 读者 可 能 已 经 注意 到 日 志 的 开头 是 4 而 不 是 0， 这 是 因为 0 其 实 不 是 日 
志 真 正 开始 的 位 置 ， 它 仅仅 意味 着 “在 日 志文 件 头 ”，MySQL 知道 第 一 个 事件 从 文件 的 
第 4 位 “开始 读 。 


注 4: 事实 上 ， 正 如 之 前 从 SHOW MASTER STATUS 看 到 的 ， 真 正 的 日 志 起 始 位 置 是 98， 一 旦 备 详 连接 到 主 
库 就 开始 工作 ， 现 在 连接 还 未 发 生 。 
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运行 下 面 的 命令 开始 复制 : 
mysql> START SLAVE; 
执行 该 命令 没有 显示 错误 ， 现 在 我 们 再 用 SHOW SLAVE STATUS 命令 检查 : 


mysql> SHOW SLAVE STATUS\G 
六 六 六 六 六 闵 六 六 六 六 米 玉 闵 六 玉米 米 玉米 米 六 冰冰 闵 六 六 六。 roy oook kokk 
Slave_I0 State: Waiting for master to send event 
Master Host: server1 
Master User: repl 
Master Port: 3306 
Connect_Retry: 60 
Master_Log File: mysql-bin.000001 
Read Master_Log Pos: 164 
Relay Log File: mysql-relay-bin.000001 
Relay Log Pos: 164 
Relay Master Log File: mysql-bin.000001 
Slave I0 Running: Yes 
Slave SQL Running: Yes 
.. omitted... 
Seconds Behind Master: 0 


从 输出 可 以 看 出 IO 线程 和 SQL 线程 都 已 经 开始 运行 ，Seconds Behind Master 的 值 也 
不 再 为 NULL ( 稍 后 再 解释 Seconds Behind Master 的 含义 ) 。LIO 线程 正在 等 待 从 主 库 传 
递 过 来 的 事件 ， 这 意味 着 I/O 线程 已 经 读 取 了 主 库 所 有 的 事件 。 日 志 位 置 发 生 了 变化 ， 

表明 已 经 从 主 库 获 取 和 执行 了 一 些 事件 〈 你 的 结果 可 能 会 有 所 不 同 )。 如 果 在 主 库 上 做 
一 些 数据 更 新 ， 就 会 看 到 备 库 的 文件 或 者 日 志 位 置 都 可 能 会 增加 。 备 库 中 的 数据 同样 会 
随 之 更 新 。 


我 们 还 可 以 从 线程 列表 中 看 到 复制 线程 。 在 主 库 上 可 以 看 到 由 备 库 I/O 线程 向 主 库 发 起 


mysql> SHOW PROCESSLIST\G 
六 冰冰 六 六 六 六 六 水 炒 闵 六 六 六 闵 冰冰 六 六 六 六 六 冰冰 冰冰 六 yy Fokk kkk kkk 
Id: 55 
User: repl 
Host: replical.webcluster_1:54813 
db: NULL 
Command: Binlog Dump 
Time: 610237 
State: Has sent all binlog to slave; waiting for binlog to be updated 
Info: NULL 


同样 ， 在 备 库 也 可 以 看 到 两 个 线程 ， 一 个 是 IO 线程 ， 一 个 是 SQL RE : 
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mysql> SHOW PROCESSLIST\G 
FESO RGSS E ROK 4 ypy bokok kk 


Id: 1 
User: system user 


db: NULL 
Command: Connect 
Time: 611116 
State: Waiting for master to send event 


Info: NULL 
六 六 六 六 六 六 六 六 六 冰 六 六 闵 六 冰冰 六 六 闵 六 六 六 六 闵 六 闵 六、 roy Jeera aaa aR OK 


Id: 2 
User: system user 


db: NULL 
Command: Connect 
Time: 33 
State: Has read all relay log; waiting for the slave I/O thread to update it 
Info: NULL 


这 些 简单 的 输出 来 自 一 台 已 经 运行 了 一 段 时 间 的 服务 器 ， 所 以 1/0 线程 在 主 库 和 备 库 上 
的 Time 列 的 值 较 大 。SQL 线程 在 备 库 已 经 空间 了 33 秒 。 这 意味 着 33 秒 内 没有 重 放 任 
何事 件 。 


这 些 线程 总 是 运行 在 “system user” 账 号 下 ， 其 他 列 的 值 则 不 相同 。 例 如 ， 当 SQL 线程 
回放 事件 时 ，Info 列 可 能 显示 正在 执行 的 查询 。 


mysqlsandbox.net) 能 够 帮助 你 从 一 个 之 前 下 载 的 安装 包 中 一 次 性 安装 。 通 过 如 下 命 


A 

E 如 果 只 是 想 实验 MySQL BS fill, Giuseppe Maxia 的 MySQL 沙 箱 脚 本 (http:// 

ae 

W a 
d 令 只 需要 几 次 按键 和 大 约 15 秒 ， 就 可 以 运行 一 个 主 库 和 两 个 备 库 : 


$ ./set_replication.pl /path/to/mysql-tarball.tar.gz 


10.2.4 从 另 一 个 服务 器 开始 复制 

前 面 的 设置 都 是 假定 主 备 库 均 为 刚刚 安装 好 且 都 是 默认 的 数据 ， 也 就 是 说 两 台 服 务 器 上 
数据 相同 ， 并 且 知 道 当 前 主 库 的 二 进 制 日 志 。 这 不 是 典型 的 案例 。 大 多 数 情 况 下 有 一 个 
已 经 运行 了 一 段 时 间 的 主 库 ， 然 后 用 一 台新 安装 的 备 库 与 之 同步 ， 此 时 这 人 台 备 库 还 没有 
数据 。 


有 几 种 办 法 来 初始 化 备 库 或 者 从 其 他 服务 器 克隆 数据 到 备 库 。 包 括 从 主 库 复制 数据 、 从 
男 外 一 台 备 库 克 隆 数据 ， 以 及 使 用 最 近 的 一 次 备份 来 启动 备 库 ， 需 要 有 三 个 条 件 来 让 主 
库 和 备 库 保持 同步 : 


。 在 某 个 时 间 点 的 主 库 的 数据 快照 。 
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。 主 库 当前 的 二 进 制 日 志文 件 ， 和 获得 数据 快照 时 在 该 二 进 制 日 志文 件 中 的 偏 移 量 ， 
我 们 把 这 两 个 值 称 为 日 志文 件 坐 标 (log file coordinates)。 通 过 这 两 个 值 可 以 确定 二 
进 制 日 志 的 位 置 。 可 以 通过 SHOW MASTER STATUS 命令 来 获取 这 些 值 。 

。 ”从 快照 时 间 到 现在 的 二 进 制 日 志 。 


下 面 是 一 些 从 别 的 服务 器 克隆 备 库 的 方法 ， 


使 用 冷 备份 
最 基本 的 方法 是 关闭 主 库 ， 把 数据 复制 到 备 库 (高 效 复制 文件 的 方法 参考 附录 
C)。 重 启 主 库 后 ， 会 使 用 一 个 新 的 二 进 制 日 志文 件 ， 我 们 在 备 库 通过 执行 CHANGE 
MASTER T0 指 向 这 个 文件 的 起 始 处 。 这 个 方法 的 缺点 很 明显 : 在 复制 数据 时 需要 关 
MER. 

使 用 热 备 份 
如 果 仅 使 用 了 MyISAM 表 ， 可 以 在 主 库 运行 时 使 用 mysqlhotcopy 或 rsync 来 复制 数 
据 ， 更 多 细节 参阅 第 15 章 。 

使 用 mysqldump 
如 果 只 包含 InnoDB 表 ， 那么 可 以 使 用 以 下 命令 来 转 储 主 库 数据 并 将 其 加 载 到 备 库 ， 
然后 设置 相应 的 二 进 制 日 志 坐 标 : 


$ mysqldump --single-transaction --all- databases --master-data=1--host=server1 \ 
| mysql --host=server2 


选项 --single-transaction 使 得 转 储 的 数据 为 事务 开始 前 的 数据 。 如 果 使 用 的 是 非 事 
务 型 表 ， 可 以 使 用 --lock-all-tables 选项 来 获得 所 有 表 的 一 致 性 转 储 。 

使 用 快照 或 备份 
只 要 知道 对 应 的 二 进 制 日 志 坐标 , 就 可 以 使 用 主 库 的 快照 或 者 备份 来 初始 化 备 库 (如 
果 使 用 备份 ， 需 要 确保 从 备份 的 时 间 点 开始 的 主 库 二 进 制 日 志 都 要 存在 )。 只 需要 
把 备份 或 快照 恢复 到 备 库 ， 然 后 使 用 CHANGE MASTER T0 指定 二 进 制 日 志 的 坐标 。 第 
15 章 会 介绍 更 多 的 细节 ， 也 可 以 使 用 LVM 快照 、SAN 快照 、EBS 快照 一 一 任何 快 
照 都 可 以 。 

使 用 Percona Xtrabackup 
Percona 的 Xtrabackup 是 一 款 开源 的 热 备 份 工具 ， 多 年 前 我 们 就 介绍 过 。 它 能 够 在 
备份 时 不 阻塞 服务 器 的 操作 ， 因 此 可 以 在 不 影响 主 库 的 情况 下 设置 备 库 。 可 以 通过 
克隆 主 库 或 另 一 个 已 存在 的 备 库 的 方式 来 建立 备 库 。 
在 15 章 会 介绍 更 多 使 用 Percona Xtrabackup 的 细节 。 这 里 会 介绍 一 些 相关 的 功能 。 
创建 一 个 备份 (不管 是 从 主 库 还 是 从 别 的 备 库 ) ， 并 将 其 转 储 到 目标 机 器 ， 然 后 根据 
备份 获得 正确 的 开始 复制 的 位 置 。 
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。 ， 如果 是 从 主 库 获 得 备份 ， 可 以 从 xtrabackup_binlog pos innodb 文件 中 获得 复 


制 开始 的 位 置 。 
© 如果 是 从 另外 的 备 库 获 得 备份 ， 可 以 从 xtrabackup_slave_info 文件 中 获得 复 
制 开始 的 位 置 。 


另外 ， 在 第 15 章 提 到 的 InnoDB 热 备份 和 MySQL 企业 版 的 备份 ， 也 是 比较 好 的 初 
始 化 备 库 方式 。 

使 用 另外 的 备 库 
可 以 使 用 任何 一 种 提 及 的 克隆 或 者 拷贝 技术 来 从 任意 一 台 备 库 上 将 数据 克隆 到 另外 
一 台 服 务 器 。 但 是 如 果 使 用 的 是 mysqldump, --master-data 选项 就 会 不 起 作用 。 
此 外 ， 不 能 使 用 SHOW MASTER STATUS 来 获得 主 库 的 二 进 制 日 志 坐 标 ， 而 是 在 获取 快 
照 时 使 用 SHOW SLAVE STATUS 来 获取 备 库 在 主 库 上 的 执行 位 置 。 
使 用 另外 的 备 库 进 行 数据 克隆 最 大 的 缺点 是 ， 如 果 这 人 台 备 库 的 数据 已 经 和 主 库 不 同 
步 ， 克 隆 得 到 的 就 是 脏 数 据 。 


| | 不 要 使 用 LOAD DATA FROM MASTER 或 者 LOAD TABLE FROM MASTER! 这 些 命令 过 时 、 缓 慢 ， 
-C | | 并 且 非 常 危险 ， 并 且 只 适用 于 MyISAM 存储 引擎。 


不 管 选择 哪 种 技术 ， 都 要 能 熟练 运用 ， 要 记录 详细 的 文档 或 编写 脚本 。 因 为 可 能 不 止 一 
次 需要 做 这 样 的 事情 。 甚 至 当 错 误 发 生 时 ， 也 需要 能 够 处 理 。 


10.2.5 推荐 的 复制 配置 
有 许多 参数 来 控制 复制 ， 其 中 一 些 会 对 数据 安全 和 性 能 产生 影响 。 稍 后 我 们 会 解释 何 种 
规则 在 何 时 会 失效 。 本 小 市 推荐 的 一 种 “安全 ”的 配置 ， 可 以 最 小 化 问题 发 生 的 概率 。 


在 主 库 上 二 进 制 日 志 最 重要 的 选项 是 sync_bintog : 
sync binlog=1 


如 果 开 启 该 选项 ，MySQL 每 次 在 提交 事务 前 会 将 二 进 制 日 志 同 步 到 磁盘 上 ， 保 证 在 服 
务 器 崩 误 时 不 会 丢失 事件 。 如 果 禁 止 该 选项 ， 服 务 器 会 少 做 一 些 工 作 ， 但 二 进 制 日 志文 
件 可 能 在 服务 器 崩溃 时 损坏 或 丢失 信息 。 在 一 个 不 需要 作为 主 库 的 备 库 上 ， 该 选项 带 来 
了 不 必要 的 开销 。 它 只 适用 于 二 进 制 日 志 ， 而 非 中 继 日 志 。 


如 果 无 法 容忍 服务 器 崩溃 导致 表 损 坏 ， 推 荐 使 用 InnoDB。 在 表 损 坏 无 关 紧 要 时 ， 
MyISAM 是 可 以 接受 的 ， 但 在 一 次 备 库 服务 器 崩 涡 重启 后 ，MyISAM 表 可 能 已 经 处 于 不 
一 致 状态 。 一 种 可 能 是 语句 没有 完全 应 用 到 一 个 或 多 个 表 上 ， 那 么 即使 修复 了 表 ， 数 据 
也 可 能 是 不 一 致 的 。 
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如 果 使 用 InnoDB， 我 们 强烈 推荐 设置 如 下 选项 : 


innodb flush logs at trx commit # Flush every log write 

innodb_support_xa=1 # MySQL 5.0 and newer only 

innodb safe _binlog # MySQL 4.1 only, roughly equivalent to 

# innodb support xa 

这 些 是 MySQL 5.0 及 最 新 版 本 中 的 默认 配置 ， 我 们 推荐 明确 指定 二 进 制 日 志 的 名 字 ， 以 
保证 二 进 制 日 志 名 在 所 有 服务 器 上 是 一 致 的 ， 避 免 因为 服务 器 名 的 变化 导致 的 日 志文 件 
名 变化 。 你 可 能 认为 以 服务 器 名 来 命名 二 进 制 日 志 无 关 紧 要 ， 但 经 验 表 明 ， 当 在 服务 器 
间 转 移 文件 、 克 隆 新 的 备 库 、 转 储备 份 或 者 其 他 一 些 你 想象 不 到 的 场景 下 ， 可 能 会 导致 
很 多 问题 。 为 了 避免 这 些 问 题 ， 需 要 给 Log_bin 选项 指定 一 个 参数 。 可 以 随意 地 给 一 个 
绝对 路 径 ， 但 必须 明确 地 指定 基本 的 命名 〈 正 如 本 章 之 前 讨论 的 )。 


log bin=/var/lib/mysql/mysql-bin # Good; specifies a path and base name 
#log bin # Bad; base name will be server’s hostname 


在 备 库 上 ， 我 们 同样 推荐 开启 如 下 配置 选项 ， 为 中 继 日 志 指 定 绝 对 路 径 : 


relay log=/path/to/logs/relay-bin 
skip slave start 
read only 


通过 设置 relay_log 可 以 避免 中 继 日 志文 件 基于 机 器 名 来 命名 ， 防 止 之 前 提 到 的 可 能 在 
主 库 发 生 的 问题 。 指 定 绝对 路 径 可 以 避免 多 个 MySQL 版 本 中 存在 的 Bug， 这 些 Bug 可 
能 会 导致 中 继 日 志 在 一 个 意料 外 的 位 置 创建 。skip_slave_start 选项 能 够 阻止 备 库 在 月 
省 后 自动 启动 复制 。 这 可 以 给 你 一 些 机 会 来 修复 可 能 发 生 的 问题 。 如 果 备 库 在 月 潢 后 自 
动 启动 并 且 处 于 不 一 致 的 状态 ， 就 可 能 会 导致 更 多 的 损坏 ， 最 后 将 不 得 不 把 所 有 数据 于 
充 ， 并 重新 开始 配置 备 库 。 


read_only 选项 可 以 阻止 大 部 分 用 户 更 改 非 临时 表 ， 除 了 复制 SQL 线程 和 其 他 拥有 超级 
权限 的 用 户 之 外 ， 这 也 是 要 尽量 避免 给 正常 账号 授予 超级 权限 的 原因 之 一 。 


即使 开启 了 所 有 我 们 建议 的 选项 ， 备 库 仍 然 可 能 在 崩溃 后 被 中 断 ， 因 为 master.info 和 中 
继 日 志文 件 都 不 是 月 涡 安 全 的 。 默 认 情 况 下 其 至 不 会 刷新 到 磁盘 ， 直 到 MySQL 5.5 版 本 
才 有 选项 来 控制 这 种 行为 。 如 果 正 在 使 用 MySQL 5.5 并 且 不 介意 额外 的 fsync() 导致 的 
性 能 开销 ， 最 好 设置 以 下 选项 : 

sync_master_info 


sync relay log 
sync relay log info 


ft Ww tt 
pà 


如 果 备 库 与 主 库 的 延迟 很 大 ， 备 库 的 I/O 线程 可 能 会 写 很 多 中 继 日 志文 件 ，SQL 线程 在 
重 放 完 一 个 中 继 日 志 中 的 事件 后 会 尽快 将 其 删除 (通过 relay_log purge 选项 来 控制 ) 。 
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但 如 果 延 迟 非常 严重 ，LI/O 线程 可 能 会 把 整个 磁盘 撑 满 。 解 决 办 法 是 配置 relay Log _ 
space_1limit 变量 。 如 果 所 有 中 继 日 志 的 大 小 之 和 超过 这 个 值 ，I/O 线程 会 停止 ， 等 待 
SQL 线程 释放 磁盘 空间 。 


尽管 听 起 来 很 美好 ， 但 有 一 个 隐藏 的 问题 。 如 果 备 库 没 有 从 主 库 上 获取 所 有 的 中 继 日 志 ， 
这 些 日 志 可 能 在 主 库 崩 种 时 丢失 。 早 先 这 个 选项 存在 一 些 Bug， 使 用 率 也 不 高 ， 所 以 用 
到 这 个 选项 遇 到 Bug 的 风险 会 更 高 。 除 非 磁盘 空间 真 的 非常 紧张 ， 否 则 最 好 让 中 继 日 志 
使 用 其 需要 的 磁盘 空间 ， 这 也 是 为 什么 我 们 没有 将 relay_log_space_limit 列 入 推荐 的 
配置 选项 的 原因 。 


10.3 复制 的 原理 


我 们 已 经 介绍 了 复制 的 一 些 基本 概念 ， 接 下 来 要 更 深入 地 了 解 复制 。 让 我 们 看 看 复制 究 
竞 是 如 何 工作 的 ， 有 哪些 优点 和 弱点 ， 最 后 介绍 一 些 更 高 级 的 复制 配置 选项 。 


10.3.1 基于 语句 的 复制 

在 MySQL 5.0 及 之 前 的 版 本 中 只 支持 基于 语句 的 复制 (也 称 为 逻辑 复制 )， 这 在 数据 库 
领域 是 很 少见 的 。 基 于 语句 的 复制 模式 下 ， 主 库 会 记录 那些 造成 数据 更 改 的 查询 ， 当 备 
库 读 取 并 重 放 这 些 事件 时 ， 实 际 上 只 是 把 主 库 上 执行 过 的 SQL 再 执行 一 遍 。 这 种 方式 既 
有 好 处 ， 也 有 缺点 。 


最 明显 的 好 处 是 实现 相当 简单 。 理 论 上 讲 ， 简 单 地 记录 和 执行 这 些 语 句 ， 能 够 让 主 备 保 
持 同 步 。 男 一 个 好 处 是 二 进 制 日 志 里 的 事件 更 加 紧凑 ， 所 以 相对 而 言 ， 基 于 语句 的 模式 
不 会 使 用 太 多 带宽 。 一 条 更 新 好 几 兆 数据 的 语句 在 二 进 制 日 志 里 可 能 只 占 几 十 个 字 布 。 
另外 mysqlbinlog 工具 (本章 多 处 会 提 到 ) 是 使 用 基于 语句 的 日 志 的 最 佳 工具 。 


但 事实 上 基于 语句 的 方式 可 能 并 不 如 其 看 起 来 那么 便利 。 因 为 主 库 上 的 数据 更 新 除了 执 
行 的 语句 外 ， 可 能 还 依赖 于 其 他 因素 。 例 如 ， 同 一 条 SQL 在 主 库 和 备 库 上 执行 的 时 间 可 
能 稍微 或 很 不 相同 ， 因 此 在 传输 的 二 进 制 日 志 中 ， 除 了 查询 语句 ， 还 包括 了 一 些 元 数据 
信息 ， 如 当前 的 时 间 响 。 即 便 如 此 ， 还 存在 着 一 些 无 法 被 正确 复制 的 SQL。 例 如， 使 用 
CURRENT_USER( ) 国 数 的 语句 。 存 储 过 程 和 触发 器 在 使 用 基于 语句 的 复制 模式 时 也 可 能 存 
在 问题 。 


另外 一 个 问题 是 更 新 必须 是 串 行 的 。 这 需要 更 多 的 锁 一 有 时 候 要 特别 关注 这 一 点 。 另 
外 不 是 所 有 的 存储 引擎 都 支持 这 种 复制 模式 。 尽 管 这 些 存 储 引 擎 是 包括 在 MySQL 5.5 及 
之 前 版 本 中 发 行 的 。 


可 以 在 MySQL 手册 与 复制 相关 的 章节 中 找到 基于 语句 的 复制 存在 的 限制 的 完整 列表 。 
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10.3.2 基于 行 的 复制 

MySQL 5.1 开始 支持 基于 行 的 复制 ， 这 种 方式 会 将 实际 数据 记录 在 二 进 制 日 志 中 ， 跟 其 
他 数据 库 的 实现 比较 相像 。 它 有 其 自身 的 一 些 优 点 和 缺点 。 最 大 的 好 处 是 可 以 正确 地 复 
制 每 一 行 。 一 些 语句 可 以 被 更 加 有 效 地 复制 。 


Va 


局 | 基于 行 的 复制 没有 向 后 兼容 性 ， 和 MySQL 5.1 一 起 发 布 的 mysqlbinlog 工具 可 以 读 
。 取 基于 行 的 复制 的 事件 格式 〈 它 对 人 是 不 可 读 的 ， 但 MySQL 可 以 解释 ) ， 但 是 早期 
版 本 的 mysqlbinlog 无 法 识别 这 类 事件 ， 在 遇 到 错误 时 会 退出 。 


由 于 无 须 重 放 更 新 主 库 数据 的 查询 ， 使 用 基于 行 的 复制 模式 能 够 更 高 效 地 复制 数据 。 重 
放 一 些 查 询 的 代价 可 能 会 很 高 。 例 如 ， 下 面 有 一 个 查询 将 数据 从 一 个 大 表 中 汇总 到 小 表 : 
- mysql> INSERT INTO summary table(col1, col2, sum_col3) 
-> SELECT coli, col2, sum(col3) 


-> FROM enormous_table 
-> GROUP BY coli, col2; 


想象 一 下 ， 如 果 表 enormous table 的 列 coll 和 col2 有 三 种 组 合 ， 这 个 查询 可 能 在 源 表 
上 扫描 多 次 ， 但 最 终 只 在 目标 表 上 产生 三 行 数据 。 但 使 用 基于 行 的 复制 方式 ， 在 备 库 上 
开销 会 小 很 多 。 这 种 情况 下 ， 基 于 行 的 复制 模式 更 加 高 效 。 
但 在 另 一 方面 ， 下面 这 条 语句 使 用 基于 语句 的 复制 方式 代价 会 小 很 多 : 

mysql> UPDATE enormous table SET col1 = 0; 
由 于 这 条 语句 做 了 全 表 更 新 ， 使 用 基于 行 的 复制 开销 会 很 大 ， 因 为 每 一 行 的 数据 都 会 被 
记录 到 二 进 制 日 志 中 ， 这 使 得 二 进 制 日 志 事 件 非 常 庞大 。 并 且 会 给 主 库 上 记录 日 志和 复 
制 增加 额外 的 负载 ， 更 慢 的 日 志 记 录 则 会 降低 并 发 度 。 
由 于 没有 哪 种 模式 对 所 有 情况 都 是 完美 的 ，MySQL 能 够 在 这 两 种 复制 模式 间 动 态 切换 。 
默认 情况 下 使 用 的 是 基于 语句 的 复制 方式 ， 但 如 果 发 现 语句 无 法 被 正确 地 复制 ， 就 切换 
到 基于 行 的 复制 模式 。 还 可 以 根据 需要 来 设置 会 话 级 别 的 变量 binlog format， 控 制 二 
进 制 日 志 格 式 。 
对 于 基于 行 的 复制 模式 ， 很 难 进行 时 间 点 恢复 ， 但 这 并 非 不 可 能 。 稍 后 讲 到 的 日 志 服 务 
器 对 此 会 有 帮助 。 


10.3.3 基于 行 或 基于 语句 : 哪 种 更 优 
我 们 已 经 讨论 了 这 两 种 复制 模式 的 优 所 和 缺 反 ， 那么 在 实际 应 用 中 哪 种 方式 更 优 呢 ? 
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理论 上 基于 行 的 复制 模式 整体 上 更 优 ， 并 且 在 实际 应 用 中 也 适用 于 大 多 数 场 景 。 但 这 种 


方式 太 新 了 以 至 于 没有 将 一 些 特殊 的 功能 加 入 到 其 中 来 满足 数据 库 管理 员 的 操作 需求 。 
因此 一 些 人 直到 现在 还 没有 开始 使 用 。 以 下 详细 地 阐述 两 种 方式 的 优点 和 缺 后 ， 以 帮助 
你 决定 哪 种 方式 更 合适 。 


基于 语句 的 复制 模式 的 优点 
当主 备 的 模式 不 同时 ， 逻 辑 复制 能 够 在 多 种 情况 下 工作 。 例 如 ， 在 主 备 上 的 表 的 定 
义 不 同 但 数据 类 型 相 兼 容 、 列 的 顺序 不 同等 情况 。 这 样 就 很 容易 先 在 备 库 上 修改 
schema， 然 后 将 其 提升 为 主 库 ， 减 少 停机 时 间 。 基 于 语句 的 复制 方式 一 般 允 许 更 灵 
活 的 操作 。 
基于 语句 的 方式 执行 复制 的 过 程 基 本 上 就 是 执行 SQL 语句 。 这 意味 着 所 有 在 服务 器 
上 发 生 的 变更 都 以 一 种 容易 理解 的 方式 运行 。 这 样 当 出 现 问题 时 可 以 很 好 地 去 定位 。 

基于 语句 的 复制 模式 的 缺点 : 
很 多 情况 下 通过 基于 语句 的 模式 无 法 正确 复制 ， 几 乎 每 一 个 安装 的 备 库 都 会 至 少 磁 
到 一 次 。 事 实 上 对 于 存储 过 程 ， 触 发 器 以 及 其 他 的 一 些 语句 的 复制 在 5.0 和 5.1 的 一 
系列 版 本 中 存在 大 量 的 Bug。 这 些 语句 的 复制 的 方式 已 经 被 修改 了 很 多 次 ， 以 使 其 
更 好 地 工作 。 简 单 地 说 : 如 果 正 在 使 用 触发 器 或 者 存储 过 程 ， 就 不 要 使 用 基于 语句 
的 复制 模式 ， 除 非 能 够 清楚 地 确定 不 会 磁 到 复制 问题 。 

基于 行 的 复制 模式 的 优点 
几乎 没有 基于 行 的 复制 模式 无 法 处 理 的 场景 。 对 于 所 有 的 SQL 构造 、 触 发 器 、 存 储 
过 程 等 都 能 正确 执行 。 只 是 当 你 试图 做 一 些 诸如 在 备 库 修改 表 的 schema 这 样 的 事情 
时 才 可 能 导致 复制 失败 。 
这 种 方式 同样 可 能 减少 锁 的 使 用 ， 因 为 它 并 不 要 求 这 种 强 串 行 化 是 可 重复 的 。 
基于 行 的 复制 模式 会 记录 数据 变更 ， 因 此 在 二 进 制 日 志 中 记录 的 都 是 实际 上 在 主 库 
上 发 生 了 变化 的 数据 。 你 不 需要 查看 一 条 语句 去 猜测 它 到 底 修改 了 哪些 数据 。 在 某 
种 程度 上 ， 该 模式 能 够 更 加 清楚 地 知道 服务 器 上 发 生 了 哪些 更 改 ， 并 且 有 一 个 更 好 
的 数据 变更 记录 。 另 外 在 一 些 情况 下 基于 行 的 二 进 制 日 志 还 会 记录 发 生 改变 之 前 的 
数据 ， 因 此 这 可 能 有 利于 某 些 数据 恢复 。 
在 很 多 情况 下 ， 由 于 无 须 像 基 于 语句 的 复制 那样 需要 为 查询 建立 执行 计划 并 执行 查 
询 ， 因 此 基于 行 的 复制 占用 更 少 的 CPU。 | | 
最 后 ， 在 某 些 情况 下 ， 基 于 行 的 复制 能 够 帮助 更 快 地 找到 并 解决 数据 不 一 致 的 情况 。 
举 个 例子 ， 如 果 是 使 用 基于 语句 的 复制 模式 ， 在 备 库 更 新 一 个 不 存在 的 记录 时 不 会 
失败 ， 但 在 基于 行 的 复制 模式 下 则 会 报错 并 停止 复制 。 

基于 行 的 复制 模式 的 缺点 
由 于 语句 并 没有 在 日 志 里 记录 ， 因 此 无 法 判断 执行 了 哪些 SQL， 除 了 需要 知道 行 的 
变化 外 ， 这 在 很 多 情况 下 也 很 重要 (这 可 能 在 未 来 的 MySQL 版 本 中 被 修复 )。 
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使 用 一 种 完全 不 同 的 方式 在 备 库 进行 数据 变更 一 一 而 不 是 执行 SQL. BRE, HT 
基于 行 的 变化 的 过 程 就 像 一 个 黑 盒 子 ， 你 无 法 知道 服务 器 正在 做 什么 。 并 且 没 有 很 
好 的 文档 和 人 解释。 因此 当 出 现 问题 时 ， 可 能 很 难 找到 问题 所 在 。 例 如 ， 若 备 库 使 用 
一 个 效率 低下 的 方式 去 寻找 行 记录 并 更 新 ， 你 无 法 观察 到 这 一 点 。 

如 果 有 多 层 的 复制 服务 器 ， 并 且 所 有 的 都 被 配置 成 基于 行 的 复制 模式 ， 当 会 话 级 别 
的 变量 @@binlog format 被 设置 成 STATEMENT 时 ， 所 执行 的 语句 在 源 服务 器 上 被 记 
录 为 基于 语句 的 模式 ， 但 第 一 层 的 备 库 可 能 将 其 记录 成 行 模式 ， 并 传递 给 其 他 层 的 
备 库 。 也 就 是 说 你 期 望 的 基于 语句 的 日 志 在 复制 拓扑 中 将 会 被 切换 到 基于 行 的 模式 。 
基于 行 的 日 志 无 法 处 理 诸如 在 备 库 修改 表 的 schema 这 样 的 情况 ， 而 基于 语句 的 日 志 
可 以 。 | 

在 某 些 情况 下 ， 例 如 找 不 到 要 修改 的 行 时 ， 基 于 行 的 复制 可 能 会 导致 复制 停止 ， 而 
基于 语句 的 复制 则 不 会 。 这 也 可 以 认为 是 基于 行 的 复制 的 一 个 优点 。 该 行为 可 以 通 
过 slave exec mode 来 进行 配置 。 

这 些 缺 点 正在 被 慢 慢 解决 ， 但 直到 写作 本 书 时 ， 它 们 在 大 多 数 生 产 环境 中 依然 存在 。 


10.3.4 复制 文件 

让 我 们 来 看 看 复制 会 使 用 到 的 一 些 文件 。 前 面 已 经 介绍 了 二 进 制 日 志文 件 和 中 继 日 志文 
件 ， 其 实 还 有 其 他 的 文件 会 被 用 到 。 不 同 版 本 的 MySQL 黑 认 情况 下 可 能 将 这 些 文件 放 
到 不 同 的 目录 里 ， 大 多 取决 具体 的 配置 选项 。 可 能 在 data 目录 或 者 包含 服务 器 .pid 文件 
的 目录 下 (对 于 类 UNIX 系统 可 能 是 /war/run/mysql1d)。 它 们 的 详细 介绍 如 下 。 


mysql-bin.index 
当 在 服务 器 上 开启 二 进 制 日 志 时 ， 同 时 会 生成 一 个 和 二 进 制 日 志 同 名 的 但 以 .zadex 
作为 后 缀 的 文件 ， 该 文件 用 于 记录 磁盘 上 的 二 进 制 日 志文 件 。 这 里 的 “index” 并 不 
是 指 表 的 索引 ， 而 是 说 这 个 文件 的 每 一 行 包 含 了 二 进 制 文件 的 文件 名 。 
你 可 能 认为 这 个 文件 是 多 余 的 ， 可 以 被 删除 《毕竟 MySQL 可 以 在 磁盘 上 找到 它 需 
要 的 文件 )。 事 实 上 并 非 如 此 ，MySQL 依赖 于 这 个 文件 ， 除 非 在 这 个 文件 里 有 记录 ， 
否则 MySQL 识别 不 了 二 进 制 日 志文 件 。 | 

mysql-relay-bin-index 
这 个 文件 是 中 继 日 志 的 索引 文件 ， 和 mysql-bin.index 的 作用 类 似 。 

master.info 
这 个 文件 用 于 保存 备 库 连 接 到 主 库 所 需要 的 信息 ， 格 式 为 纯 文 本 (每 行 一 个 值 )， 不 
AIRY MySQL 版 本 ， 其 记录 的 信息 也 可 能 不 同 。 此 文件 不 能 删除 ， 人 否则 备 库 在 重 局 
后 无 法 连接 到 主 库 。 这 个 文件 以 文本 的 方式 记录 了 复制 用 户 的 密码 ， 所 以 要 注意 此 
文件 的 权限 控制 。 


448 | 第 10 章 复制 


relay-log.info 
这 个 文件 包含 了 当前 备 库 复 制 的 二 进 制 日 志和 中 继 日 志 坐 标 〈 例 如 ， 备 库 复 制 在 主 
库 上 的 位 置 )， 同 样 也 不 要 删除 这 个 文件 ， 否 则 在 备 库 重启 后 将 无 法 获知 从 哪个 位 置 
开始 复制 ， 可 能 会 导致 重 放 已 经 执行 过 的 语句 。 


使 用 这 些 文件 来 记录 MySQL 复制 和 日 志 状 态 是 一 种 非常 粗糙 的 方式 。 更 不 幸 的 是 ， 它 
们 不 是 同步 写 的 。 如 果 服 务 器 断 电 并 且 文件 数据 没有 被 刷新 到 磁盘 ， 在 重启 服务 器 后 ， 
文件 中 记录 的 数据 可 能 是 错误 的 。 正 如 之 前 提 到 的 ,这 些 问题 在 MySQL 5.5 里 做 了 改进 。 


以 index 作为 后 缀 的 文件 也 与 设置 expire logs days 存在 交互 ,该 参数 定义 了 MySQL 
清理 过 期 日 志 的 方式 ， 如 果 文 件 mysgql-bin.index 在 磁盘 上 不 存在 ， 在 某 些 MySQL 版 本 
自动 清理 就 会 不 起 作用 ， 其 至 执行 PURGE MASTER LOGS 语句 也 没有 用 。 这 个 问题 的 解决 
方法 通常 是 使 用 MySQL 服务 器 管理 二 进 制 日 志 ， 这 样 就 不 会 产生 误解 (这 意味 着 不 应 
该 使 用 rm 来 自己 清理 日 志 ) 


最 好 能 显 式 地 执行 一 些 日 志清 理 策略 ， 比 如 设置 expire_logs_days 参数 或 者 其 他 方式 ， 
否则 MySQL 的 二 进 制 日 志 可 能 会 将 磁盘 撑 满 。 当 做 这 些 事情 时 , 还 需要 考虑 到 备份 策略 。 


10.3.5 发 送 复制 事件 到 其 他 备 库 


log_slave_updates 选项 可 以 让 备 库 变 成 其 他 服务 器 的 主 库 。 在 设置 该 选项 后 ，MySQL 
会 将 其 执行 过 的 事件 记录 到 它 自己 的 二 进 制 日 志 中 。 这 样 a 
索 并 执行 事件 。 图 10-2 阐述 了 这 一 过 程 。 


: VORB p 
ry H 
: Fa 


log_save_ 
updates 





图 10-2， 将 复制 事件 传递 到 更 多 的 备 库 
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在 这 种 场景 下 ， 主 库 将 数据 更 新 事件 写 和 二进制 日 志 ， 第 一 个 备 库 提 取 并 执行 这 个 事件 。 
这 时 候 一 个 事件 的 生命 周期 应 该 已 经 结束 了 ， 但 由 于 设置 了 Log_sLave_updates， 备 库 
会 将 这 个 事件 写 到 它 自 己 的 二 进 制 日 志 中 。 这 样 第 二 个 备 库 就 可 以 将 事件 提取 到 它 的 中 
继 日 志 中 并 执行 。 这 意味 着 作为 源 服务 器 的 主 库 可 以 将 其 数据 变化 传递 给 没有 与 其 直接 
相连 的 备 库 上 。 默 认 情 况 下 这 个 选项 是 被 打开 的 ， 这 样 在 连接 到 备 库 时 就 不 需要 重启 服 
务 器 。 


当 第 一 个 备 库 将 从 主 库 获 得 的 事件 写 入 到 其 二 进 制 日 志 中 时 ， 这 个 事件 在 备 库 二 进 制 日 
志 中 的 位 置 与 其 在 主 库 二 进 制 日 志 中 的 位 置 几乎 肯定 是 不 相同 的 ， 可 能 在 不 同 的 日 志文 
件 或 文件 内 不 同 的 位 置 。 这 意味 着 你 不 能 假定 所 有 拥有 同一 逻辑 复制 点 的 服务 器 拥有 相 
同 的 日 志 坐 标 。 稍 后 我 们 会 提 到 ， 这 种 情况 会 使 某 些 任务 更 加 复杂 ， 例 如 ， 修 改 一 个 备 
库 的 主 库 或 将 备 库 提升 为 主 库 。 


除非 你 已 经 注意 到 要 给 每 个 服务 器 分 配 一 个 唯一 的 服务 器 ID， 否 则 按照 这 种 方式 配置 
备 库 会 导致 一 些 奇 怪 的 错误 ， 黄 至 还 会 导致 复制 停止 。 一 个 更 常见 的 问题 是 : 为 什么 
要 指定 服务 器 ID， 难 道 MySQL 在 不 知道 复制 命令 来 源 的 情况 下 不 能 执行 吗 ? 为 什么 
MySQL 要 在 意 服务 器 ID 是 全 局 唯一 的 。 问 题 的 答案 在 于 MySQL 在 复制 过 程 中 如 何 防 
止 无 限 循环 。 当 复制 SQL 线程 读 中 继 日 志 时 ， 会 丢弃 事件 中 记录 的 服务 器 ID 和 该 服务 
器 本 身 ID 相同 的 事件 ， 从 而 打破 了 复制 过 程 中 的 无 限 循环 。 在 某 些 复制 拓扑 结构 下 打 
破 无 限 循环 非常 重要 ， 例 如 主 - ERMA. 


Ha 
A % 


如 果 在 设置 复制 的 时 候 磁 到 问题 ， 服 务 器 ID 应 该 是 需要 检查 的 因素 之 一 。 当 然 只 
检查 @@server id 是 不 够 的 ， 它 有 一 个 默认 值 ， 除 非 在 my.cnf 文件 或 通过 SET 命令 

S 明确 指定 它 的 值 ， 复 制 才 会 工作 。 如 果 使 用 SET 命令 ， TAP UALS aT TBE ICE. 
否则 SET 命令 的 设 定 可 能 在 服务 器 重启 后 丢失 。 





10.3.6 复制 过 滤器 

复制 过 滤 选 项 允许 你 仅 复制 服务 器 上 一 部 分 数据 ， 不 过 这 可 能 没有 想象 中 那么 好 用 。 有 
两 种 复制 过 滤 方 式 : 在 主 库 上 过 滤 记 录 到 二 进 制 日 志 中 的 事件 ， 以 及 在 备 库 上 过 滤 记 录 
到 中 继 日 志 的 事件 。 图 10-3 显示 了 这 两 种 类 型 。 


25: 语句 在 无 限 循环 中 来 回 传 递 也 是 多 服务 器 环形 复制 拓扑 结构 中 比较 有 意思 的 话题 之 一 ， 后 面 我 们 
会 提 到 。 要 尽量 避免 环形 复制 。 


450 | 第 10 章 复制 
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10-3; ' 复制 过 滤 选 项 


使 用 选项 binlog do db Fl binlog ignore db 来 控制 过 着， 稍 后 我 们 会 解释 为 什么 通常 
不 需要 开启 它们 ， 除 非 你 乐于 向 老板 解释 为 什么 数据 会 永久 丢失 并 且 无 法 恢复 。 


在 备 库 上 ， 可 以 通过 设置 replicate * 选项 ， 在 从 中 继 日 志 中 读 取 事件 时 进行 过 恋 。 你 
可 以 复制 或 忽略 一 个 或 多 个 数据 库 ， 把 一 个 数据 库 重 写 到 另外 一 个 数据 库 ， 或 使 用 类 似 
LIKE 的 模式 复制 或 忽略 数据 库 表 。 


要 理解 这 些 选项 ， 最 重要 是 弄 清楚 * do db 和 * ignore db 在 主 库 和 备 库 上 的 意义 , € 
们 可 能 不 会 按照 你 所 设想 的 那样 工作 。 你 可 能 会 认为 它 会 根据 目标 数据 库 名 过 滤 ， 但 实 
际 上 过 滤 的 是 当前 的 默认 数据 库 生 。 也 就 是 说 ， 如 果 在 主 库 上 执行 如 下 语句 : 


mysql> USE test; 
mysql> DELETE FROM sakila.film; 


* do db 和 * ignore db 都 会 在 数据 库 test 上 过 着 DELETE 语句 ， 而 不 是 在 sakila 上 。 
这 通常 不 是 想 要 的 结果 ， 可 能 会 导致 执行 或 忽略 错误 的 语句 。*_do_db 和 * _ignore_db 
有 一 些 作 用 ， 但 非常 有 限 。 必 须要 很 小 心地 去 使 用 这 些 参数 ， 人 否则 很 容易 造成 主 备 不 同 
步 或 复制 出 错 。 


binlog_do_db 和 binLog_ignore_db 不 仅 可 能 会 破坏 复制 ， 还 可 能 会 导致 从 某 个 时 
间 点 的 备份 进行 数据 恢复 时 失败 。 在 大 多 数 情 况 下 都 不 应 该 使 用 这 些 参 数 。 本 章 稍 
后 部 分 我 们 展示 了 一 些 使 用 blackhole 表 进 行 复制 过 滤 的 方法 。 





26: 如 果 使 用 的 是 基于 语 向 的 复制 ， 就 会 有 这 样 的 问题 ， 但 基于 行 的 复制 方式 则 不 会 ( 另 一 个 远离 它 


们 的 理由 ) 。 
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总 地 来 说 ,复制 过 小 随时 可 能 会 发 生 问题 。 举 个 例子 ,假如 要 阻止 赋 权 限 操作 传递 给 备 库 ， 
这 种 需求 是 很 普遍 的 。( 提 醒 一 下 ， 这 样 做 可 能 是 错误 的 ， 有 别 的 更 好 的 方式 来 达成 真 
正 的 目的 )。 过 滤 系 统 表 的 复制 当然 能 够 阻止 GRANT 语句 的 复制 ， 但 同样 也 会 阻止 事件 和 
定时 任务 的 复制 。 正 是 这 些 不 可 预知 的 后 果 ， 使 用 复制 过 滤 要 非常 慎重 。 更 好 的 办 法 是 
阻止 一 些 特殊 的 语句 被 复制 ,通常 是 设置 SQL L0G BIN=06， 虽 然 这 种 方法 也 有 它 的 缺点 。 
总 地 来 说 ， 除 非 万 不 得 已 ， 不 要 使 用 复制 过 滤 ， 因 为 它 很 容易 中 断 复制 并 导致 问题 ， 在 
需要 灾难 恢复 时 也 会 带 来 极 大 的 不 方便 。 


TEAME MySQL 文档 里 介绍 得 很 详细 ， 因 此 本 书 不 再 重复 更 多 的 细节 。 


10.4 复制 拓扑 


可 以 在 任意 个 主 库 和 备 库 之 间 建立 复制 ， 只 有 一 个 限制 每 一 个 备 库 只 能 有 一 个 主 库 。 


有 很 多 复杂 的 拓扑 结构 ， 但 即使 是 最 简单 的 也 可 能 会 非常 灵活 。 一 种 拓扑 可 以 有 多 种 用 
途 。 关 于 使 用 复制 的 不 同方 式 可 以 很 轻易 地 写 一 本 书 。 


我 们 已 经 讨论 了 如 何 为 主 库 设 置 一 个 备 库 ， 本 市 我 们 讨论 其 他 比较 普遍 的 拓扑 结构 以 及 
它们 的 优 缺点 。 记 住 下 面 的 基本 原则 : 


。 一 个 MySQL 备 库 实例 只 能 有 一 个 主 库 。 

。 每 个 备 库 必 须 有 一 个 唯一 的 服务 器 ID. 

© ”一 个 主 库 可 以 有 多 个 备 库 (或 者 相应 的 ， 一 个 备 库 可 以 有 多 个 兄弟 备 库 ) 。 

。 如果 打开 了 log_slave_updates 选项 ， 一 个 备 库 可 以 把 其 主 库 上 的 数据 变化 传播 到 
其 他 备 库 。 


10.4.1 一 主 库 多 备 库 

除了 我 们 已 经 提 过 的 两 台 服 务 器 的 主 备 结构 外 ， 这 是 最 简单 的 拓扑 结构 。 事 实 上 一 主 多 
备 的 结构 和 基本 配置 差不多 简单 ， 因 为 备 库 之 间 根 本 没有 交互 "， 它 们 仅仅 是 连接 到 同 
一 个 主 库 上 。 图 10-4 显示 了 这 种 结构 。 


在 有 少量 写 和 大 量 谈 时 ， 这 种 配置 是 非常 有 用 的 。 可 以 把 读 分 摊 到 多 个 备 库 上 ， 直 到 备 
库 给 主 库 造 成 了 太 大 的 负担 ， 或 者 主 备 之 间 的 带宽 成 为 瓶颈 为 止 。 你 可 以 按照 之 前 介绍 
的 方法 一 次 性 设置 多 个 备 库 ， 或 者 根据 需要 增加 备 库 。 


注 7: 从 技术 上 讲 这 并 非 正确 的 。 但 如 果 有 重复 的 服务 器 ID， 它 们 将 陷入 竞争 ， 并 反复 将 对 方 从 主 库 上 
路 出 。 
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10-4: 一 主 多 备 结构 


尽管 这 是 非常 简单 的 拓扑 结构 ， 但 它 非常 灵活 ， 能 满足 多 种 需求 。 下 面 是 它 的 一 些 用 途 : 


。 为 不 同 的 角色 使 用 不 同 的 备 库 (例如 添加 不 同 的 索引 或 使 用 不 同 的 存储 引擎 )。 
。 把 一 台 备 库 当 作 待 用 的 主 库 ， 除 了 复制 没有 其 他 数据 传输 。 

。 将 一 台 备 库 放 到 远程 数据 中 心 ， 用 作 灾 难 恢复 。 

。 延迟 一 个 或 多 个 备 库 ， 以 备 灾难 恢复 。 

。 使 用 其 中 一 个 备 库 ， 作 为 备份 、 培 训 、 开 发 或 者 测试 使 用 服务 器 。 


这 种 结构 流行 的 原因 是 它 避 免 了 很 多 其 他 拓扑 结构 的 复杂 性 。 例 如 : 可 以 方便 地 比较 不 
同 备 库 重 放 的 事件 在 主 库 二 进 制 日 志 中 的 位 置 。 换 句 话 说， 如果 在 同一 个 逻辑 点 停止 所 
有 备 库 的 复制 ， 它 们 正在 读 取 的 是 主 库 上 同一 个 日 志文 件 的 相同 物理 位 置 。 这 是 个 很 好 
的 特性 ， 可 以 减轻 管理 员 许 多 工作 ， 例 如 把 备 库 提升 为 主 库 。 


这 种 特性 只 存在 于 兄弟 备 库 之 间 。 在 没有 直接 的 主 备 或 者 兄弟 关系 的 服务 器 上 去 比较 日 
志文 件 的 位 置 要 复杂 很 多 。 之 后 我 们 会 提 到 的 许多 拓扑 结构 ， 例 如 树 形 复制 或 分 布 式 主 
库 ， 很 难 计算 出 复制 的 事件 的 逻辑 顺序 。 


10.4.2 主动 一 主动 模式 下 的 主 - 主 复制 
E- 主 复制 〈 也 叫 双 主 复制 或 双 辐 复制 ) 包含 两 台 服 务 器 ， 每 一 个 都 被 配置 成 对 方 的 主 
库 和 备 库 ， 换 句 话说， 它们 是 一 对 主 库 。 图 10-5 显示 了 该 结构 。 





图 10-5: 主 一 主 复制 
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主动 - 主动 模式 下 主 - 主 复制 有 一 些 应 用 场景 ， 但 通常 用 于 特殊 的 目的 。 一 个 可 能 的 应 
用 场景 是 两 个 处 于 不 同 地 理 位 置 的 办 公 室 ， 并 且 都 需要 一 份 可 写 的 数据 拷贝 。 


这 种 配置 最 大 的 问题 是 如 何 解决 冲突 ， 两 个 可 写 的 互 主 服 务 器 导致 的 问题 非常 多 。 这 
通常 发 生 在 两 台 服 务 器 同时 修改 一 行 记 录 ， 或 同时 在 两 台 服 务 器 上 向 一 个 包含 AUTO_ 
INCREMENT 列 的 表 里 插入 数据 汪 5。 


MySQL 不 支持 多 主 库 复 制 


多 主 库 复 制 (multisource replication) 特 指 一 个 备 库 有 多 个 主 库 。 不 管 之 前 你 知道 
什么 , 但 MySQL (和 其 他 数据 库 产 品 不 一 样 ) 现在 不 支持 如 图 10-6 所 示 的 结构 ， 
本 章 稍 后 我 们 会 向 你 介绍 如 何 模 仿 多 主 库 复制 。 


10-6: MySQL 不 支持 多 主 库 复制 





MySQL 5.0 增加 了 一 些 特 性 ， 使 得 这 种 配置 稍微 安全 了 点 ， 就 是 设置 auto_increment _ 
increment 和 auto_increment_offset。 通 过 这 两 个 选项 可 以 让 MySQL 自动 为 INSERT 
语句 选择 不 互相 冲突 的 值 。 然 而 允许 向 两 台 主 库 上 写 入 仍然 很 危险 。 在 两 台 机 器 上 根据 
不 同 的 顺序 更 新 ， 可 能 会 导致 数据 不 同步 。 例 如 ， 一 个 只 有 一 列 的 表 ， 只 有 一 行 值 为 1 
的 记录 ,假设 同时 执行 下 面 两 条 语句 : 


。 在 第 一 台 主 库 上 : 

mysql> UPDATE tbl SET col=col + 1; 
。 在 第 二 台 主 库 上 : 

mysql> UPDATE tbl SET col=col ‘ 2; 


注 8: 事实 上 这 些 问题 经 常 一 周 发 生 三 次 ， 并 且 我 们 也 发 现 需 要 好 几 个 月 才能 解决 这 些 问 题 。 
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那么 结果 呢 ? 一 台 服 务 器 上 值 为 4， 另 一 台 的 值 为 3， 并 且 没 有 报告 任何 复制 错误 。 


数据 不 同步 还 仅仅 是 开始 。 当 正常 的 复制 发 生 错误 停止 了 ， 但 应 用 仍 在 同时 向 两 台 服 务 
器 写 信 数据， 这 时 候 会 发 生 什么 呢 ? 你 不 能 简单 地 把 数据 从 一 台 服 务 器 复制 到 另外 一 台 ， 
因为 这 两 台 机 器 上 需要 复制 的 数据 都 可 能 发 生 了 变化 。 解 决 这 个 问题 将 会 非常 困难 。 


如 果 足 够 仔细 地 配置 这 种 架构 ， 例 如 很 好 地 划分 数据 和 权限 ， 并 且 你 很 清楚 自己 在 做 什 
么 ， 可 以 避免 一 些 问 题 *"。 然 而 这 通常 很 难 做 好 ， 并 且 有 更 好 的 办 法 来 实现 你 所 需要 的 。 


总 地 来 说 ， 允 许 向 两 个 服务 器 上 写 入 所 带 来 的 麻烦 远 远 大 于 其 带 来 的 好 处 ,但 下 一 市 描 
述 的 主动 - 被 动 模式 则 会 非常 有 用 。. 


10.4.3 主动 - 被动 模式 下 的 主 一 主 复制 

这 是 前 面 描述 的 主 - 主 结构 的 变 体 ， 它 能 够 避免 我 们 之 前 讨论 的 问题 。 这 也 是 构建 容错 
性 和 高 可 用 性 系统 的 非常 强大 的 方式 ， 主要 区 别 在 于 其 中 的 一 台 服 务 器 是 只 \ 读 的 被 动 服 
务 器 ， 如 图 10-7 所 示 。 





图 10-7; 主动 -被 动 模式 下 的 主 - 主 复制 


这 种 方式 使 得 反复 切换 主动 和 被 动 服务 器 非常 方便 ， 因 为 服务 器 的 配置 是 对 称 的 。 这 使 
得 故障 转移 和 故障 恢复 很 容易 。 它 也 可 以 让 你 在 不 关闭 服务 器 的 情况 下 执行 维护 、 优 化 
表 、 升 级 操作 系统 (或 者 应 用 程序 、 硬 件 等 ) 或 其 他 任务 。 | 


例如 ， 执 行 ALTER TABLE 操作 可 能 会 锁 住 整个 表 ， 阻 塞 对 表 的 读 和 写 ， 这 可 能 会 花费 很 
长 时 间 并 导致 服务 中 断 。 然 而 在 主 - 主 配置 下 ， 可 以 先 停止 主动 服务 器 上 的 备 库 复 制 线 
程 (这 样 就 不 会 在 被 动 服务 器 上 执行 任何 更 新 )， 然后 在 被 动 服务 器 上 执行 ALTER 操作 ， 
交换 角色 ， 最 后 在 先前 的 主动 服务 器 上 1 启动 复制 线程 。 这 个 服务 器 将 会 读 取 中 继 日 志 
并 执行 相同 的 ALTER 语 句 。 这 可 能 花费 很 长 时 间 ， 但 不 要 紧 ， 因 为 该 服务 器 没有 为 任何 
活跃 查询 提供 服务 。 | 

主动 - 被 动 模式 的 主 - 主 结构 能 够 帮助 回避 许多 MySQL 的 问题 和 限制 ， 此 外 还 有 一 些 
注 9: a 们 可 以 吹 毛 求 疯 ， 并 指出 任何 你 可 以 想象 的 漏洞 。 


注 10 : ee a ee ee, eee 
Optimize TABLE， 也 支持 LOCAL 或 者 NO_WRITE_TO BINLOG 这 些 停 止 日 志 的 选项 。 
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工具 可 以 完成 这 种 类 型 的 操作 。 


让 我 们 看 看 如 何 配置 主 - 主 服务 器 对 ， 在 两 台 服 务 器 上 执行 如 下 设置 后 ， 会 使 其 拥有 对 
” 称 的 设置 : 


确保 两 台 服 务 器 上 有 相同 的 数据 。 

局 用 二 进 制 日 志 ， 选 择 唯 一 的 服务 器 ID ， 并 创建 复制 账号 。 

启用 备 库 更 新 的 日 志 记录 ， 后 面 将 会 看 到 ， 这 是 故障 转移 和 故障 恢复 的 关键 。 

把 被 动 服 务 器 配置 成 只 读 ， 防 止 可 能 与 主动 服务 器 上 的 更 新 产生 冲突 ， 这 一 点 是 可 
5. 局 动 每 个 服务 器 的 MySQL 实例 。 

6. 将 每 个 主 库 设置 为 对 方 的 备 库 ， 使 用 新 创建 的 二 进 制 日 志 开始 工作 。 


让 我 们 看 看 主动 服务 器 上 更 新 时 会 发 生 什么 事情 。 更 新 被 记录 到 二 进 制 日 志 中 ， 通 过 复 
制 传递 给 被 动 服务 器 的 中 继 日 志 中 。 被 动 服务 器 执行 查询 并 将 其 记录 到 自己 的 二 进 制 日 
志 中 (因为 开启 了 log_slave_updates 选项) 。 由 于 事件 的 服务 器 ID 与 主动 服务 器 的 相同 ， 
因此 主动 服务 器 将 忽略 这 些 事件 。 在 后 面 的 “修改 主 库 ”可 了 解 更 多 的 角色 切换 相关 内 容 。 


设置 主动 - 被 动 的 主 - 主 拓扑 结构 在 某 种 意义 上 类 似 于 创建 一 个 热 备 份 ， 但 是 可 以 使 用 这 
个 “备份 ”来 提高 性 能 ， 例 如 ， 用 它 来 执行 读 操 作 、 备 份 .“ 离 线 ”维护 以 及 升级 等 。 真 
正 的 热 备 份 做 不 了 这 些 事情 。 然 而 ,你 不 会 获得 比 单 台 服 务 器 更 好 的 写 性 能 ( 稍 后 会 提 到 )。 


当 我 们 讨论 使 用 复制 的 场景 和 用 途 时 ， 还 会 提 到 这 种 复制 方式 。 它 是 一 种 非常 常见 并 且 
重要 的 拓扑 结构 。 


e UO N =e 


10.4.4 拥有 备 库 的 主 - 主 结构 
另外 一 种 相关 的 配置 是 为 每 个 主 库 增 加 一 个 备 库 ， 如 图 10-8 所 示 。 





图 10-8: 拥有 备 库 的 主 - 主 结构 
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这 种 配置 的 优点 是 增加 了 宛 余 ， 对 于 不 同 地 理 位 置 的 复制 拓扑 ， 能 够 消除 站 点 单 氮 失效 
的 问题 。 你 也 可 以 像 平 常 一 样 ， 将 读 查询 分 配 到 备 库 上 。 


如 果 在 本 地 为 了 故障 转移 使 用 主 - 主 结构 ， 这 种 配置 同样 有 用 。 当 主 库 失效 时 ， 用 备 库 
来 代替 主 库 还 是 可 行 的 ， 虽 然 这 有 点 复杂 。 同 样 也 可 以 把 备 库 指向 一 个 不 同 的 主 库 ,但 
需要 考虑 增加 的 复杂 度 。 


10.4.5 环形 复制 

如 图 10-9 所 示 , 双 主 结构 实际 上 是 环形 结构 的 一 种 特例 "。 环 形 结构 可 以 有 三 个 或 更 多 
的 主 库 。 每 个 服务 器 都 是 在 它 之 前 的 服务 器 的 备 库 ， 是 在 它 之 后 的 服务 器 的 主 库 。 这 种 
结构 也 称 为 环形 复制 (circular replication)。 


环形 结构 没有 双 主 结构 的 一 些 优点 ， 例 如 对 称 配 置 和 简单 的 故障 转移 ， 并 且 完 全 依赖 于 
环 上 的 每 一 个 可 用 节点 ， 这 大 大 增加 了 整个 系统 失效 的 几率 。 如 果 从 环 中 移 除 一 个 节点 ， 
这 个 节点 发 起 的 事件 就 会 陷入 无 限 循环 : 它们 将 永远 绕 着 服务 器 链 循环 。 因 为 唯一 可 以 
根据 服务 器 ID 将 其 过 滤 的 服务 器 是 创建 这 个 事件 的 服务 器 。 总 地 来 说 ， 环 形 结构 非常 
脆弱 ， 应 该 尽量 避免 。 





图 10-9: 环形 复制 拓扑 


可 以 通过 为 每 个 节点 增加 备 库 的 方式 来 减少 环形 复制 的 风险 ， 如 图 10-10 所 示 。 但 这 仅 
仅 防 范 了 服务 器 失效 的 危险 ， 断 电 或 者 其 他 一 些 影响 到 网 络 连接 的 问题 都 可 能 破坏 整个 
环 。 


注 11 : 也 许 应 该 说 ， 是 更 明智 的 特例 。 
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10-10: 拥有 备 库 的 环形 结构 


10.4.6 主 库 、 分 发 主 库 以 及 备 库 

我 们 之 前 提 到 当 备 库 足 够 多 时 ， 会 对 主 库 造 成 很 大 的 负载 。 每 个 备 库 会 在 主 库 上 创建 一 
个 线程 ， 并 执行 binlog dump 命令 。 该 命令 会 读 取 二 进 制 日 志文 件 中 的 数据 并 将 其 发 送 
给 备 库 。 每 个 备 库 都 会 重复 这 样 的 工作 ， 它 们 不 会 共享 binlog dump 的 资源 。 


如 果 有 很 多 备 库 ， 并 且 有 大 的 事件 时 ， 例 如 一 次 很 大 的 LOAD DATA INFILE 操作 ， 主 库 上 
的 负载 会 显著 上 升 ， 甚 至 可 能 由 于 备 库 同时 请 求 同 样 的 事件 而 耗 尽 内 存 并 崩 涡 。 另 一 方 
面 ， 如 果 备 库 请 求 的 数据 不 在 文件 系统 的 缓存 中 ， 可 能 会 导致 大 量 的 磁盘 检索 ， 这 同样 
会 影响 主 库 的 性 能 并 增加 锁 的 竞争 。 


因此 ， 如 果 需 要 多 个 备 库 ， 一 个 好 办 法 是 从 主 库 移 除 负载 并 使 用 分 发 主 库 。 分 发 主 库 事 
实 上 也 是 一 个 备 库 ， 它 的 唯一 目的 就 是 提取 和 提供 主 库 的 二 进 制 日 志 。 多 个 备 库 连接 到 
分 发 主 库 ， 这 使 原来 的 主 库 摆脱 了 负担 。 为 了 避免 在 分 发 主 库 上 做 实际 的 查询 ， 可 以 将 
它 的 表 修 改 为 blackhole 存储 引擎 ， 如 图 10-11 Ara. 
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个 。 采用 blackhole 存储 
引 获 的 分 发 主 库 


610-11: 一 个 主 库 、 一 个 分 发 主 库 和 多 个 备 库 


很 难说 当 备 库 数据 达到 多 少时 需要 一 个 分 发 主 库 。 按 照 通用 准则 ， 如 果 主 库 接近 满 负 载 ， 
不 应 该 为 其 建立 10 个 以 上 的 备 库 。 如 果 有 少量 的 写 操作 ， 或 者 只 复制 其 中 一 部 分 表 ， 主 
库 就 可 以 提供 更 多 的 复制 。 另 外 ， 也 不 一 定 只 使 用 一 个 分 发 主 库 。 如 果 需 要 的 话 ， 可 以 
使 用 多 个 分 发 主 库 向 大 量 的 备 库 进 行 复制 ， 或 者 使 用 金字 塔 状 的 分 发 主 库 。 在 某 些 情况 
下 ， 可 以 通过 设置 slave compressed protocol 来 节约 一 些 主 库 带 宽 。 这 对 跨 数据 中 心 
复制 很 有 好 处 。 


还 可 以 通过 分 发 主 库 实现 其 他 目的 ， 例 如 ， 对 二 进 制 日 志 事 件 执行 过 滤 和 重 写 规 则 。 这 
比 在 每 个 备 库 上 重复 进行 日 志 记 录 、 重 写 和 过 滤 要 高 效 得 多 。 


如 果 在 分 发 主 库 上 使 用 blackhole 表 , 可 以 支持 更 多 的 备 库 。 虽 然 会 在 分 发 主 库 执行 查询 ， 
但 其 代价 非常 小 ， 因 为 blackhole 表 中 没有 任何 数据 。blockhole 表 的 缺点 是 其 存在 Bug, 
例如 在 某 些 情况 下 会 忘记 将 自 增 ID 写 入 到 二 进 制 日 志 中 。 所 以 要 小 心 使 用 blackhole 
set ae 


一 个 比较 常见 的 问题 是 如 何 确保 分 发 服务 器 上 的 每 个 表 都 是 blackhole 存储 引擎 。 如 果 
有 人 在 主 库 创建 了 一 个 表 并 指定 了 不 同 的 存储 引擎 呢 ? 确实 ， 不 管 什么 时 候 ， 在 备 库 上 
使 用 不 同 的 存储 引擎 总 会 导致 同样 的 问题 。 常 见 的 解决 方案 是 设置 服务 器 的 storage _ 
engine 选项 : 


storage engine = blackhole 


注 12 : A MySQL Bug 35178 和 62829 开始 查阅 ， 总 地 来 说 ， 如 果 使 用 的 是 不 标准 的 存储 引 学 特性 ， 最 好 
去 看 看 那些 打开 或 者 关闭 的 受 影响 的 Bug. 
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这 只 会 影响 那些 没有 指定 存储 引擎 的 CREATE TABLE 的 语句 。 如 果 有 一 个 无 法 控制 的 应 用 ， 
这 种 拓扑 结构 可 能 会 非常 脆弱 。 可 以 通过 skip_innodb 选项 禁止 InnoDB ， 将 表 退 化 为 
MyISAM。 但 你 无 法 禁止 MyISAM 或 者 Memory 5#., 


使 用 分 发 主 库 另外 一 个 主要 的 缺点 是 无 法 使 用 一 个 备 库 来 代替 主 库 。 因 为 由 于 分 发 主 库 
的 存在 ， 导 致 各 个 备 库 与 原始 主 库 的 二 进 制 日 志 坐标 已 经 不 相同 主 。 


10.4.7 树 或 金字 塔 形 
如 果 正 在 将 主 库 复 制 到 大 量 的 备 库 中 。 不 管 是 把 数据 分 发 到 不 同 的 地 方 ， 还 是 提供 更 高 
的 读 性 能 ， 使 用 金字 塔 结构 都 能 够 更 好 地 管理 ， 如 图 10-12 所 示 。 


这 种 设计 的 好 处 是 减轻 了 主 库 的 负担 ， 就 像 前 一 节 提 到 的 分 发 主 库 一 样 。 它 的 缺点 是 中 
间 层 出 现 的 任何 错误 都 会 影响 到 多 个 服务 器 。 如 果 每 个 备 库 和 主 库 直 接 相 连 就 不 会 存在 
这 样 的 问题 。 同 样 ， 中 间 层 次 越 多 ， 处 理 故 障 会 更 困难 、 更 复杂 。 





图 10-12: 金字 塔 形 复制 拓扑 


10.4.8 定制 的 复制 方案 

MySQL 的 复制 非常 灵活 ， 可 以 根据 需要 定制 解决 方案 。 典 型 的 定制 方案 包括 组 合 过 小 、 
分 发 和 向 不 同 的 存储 引擎 复制 。 也 可 以 使 用 “黑客 手段 "， 例 如 ， 从 一 个 使 用 blackhole 
存储 引擎 的 服务 器 上 复制 或 复制 到 这 样 的 服务 器 上 (本章 已 讨论 过 )。 可 以 根据 需要 任 


注 13 : 可 以 使 用 Percona 的 工具 集中 的 pt-heartbeat 来 创建 一 个 粗糙 的 全 局 事务 ID。 这样 可 以 很 方便 地 在 
多 个 服务 器 上 寻找 二 进 制 日 志 的 位 置 。 因 为 “心跳 表 ” 本 身 就 记录 了 大 概 的 二 进 制 日 志 位 置 。 
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意 设计 。 这 其 中 最 大 的 限制 是 合理 地 监控 和 管理 ， 以 及 所 拥有 资源 的 约束 (网络 带 宽 、 
CPU 能 力 等 )。 


选择 性 复制 

为 了 利用 访问 局 部 性 原理 (locality of reference)， 并 将 需要 读 的 工作 集 驻 留 在 内 存 中 ， 
可 以 复制 少量 数据 到 备 库 中 。 如 果 每 个 备 库 只 拥有 主 库 的 一 部 分 数据 ， 并 且 将 读 分 配给 
备 库 ， 就 可 以 更 好 地 利用 备 库 的 内 存 。 并 且 每 个 备 库 也 只 有 主 库 一 部 分 的 写 入 负载， 这 
样 主 库 的 能 力 更 强 并 能 保证 备 库 延 迟 。 


这 个 方案 有 点 类 似 下 一 章 我 们 会 讨论 到 的 水 平 数 据 划 分 ， 但 它 的 优势 在 于 主 库 包 含 了 所 
有 的 数据 集 ， 这 意味 着 无 须 为 了 一 条 写 人 查询 去 访问 多 个 服务 器 。 如 果 读 操作 无 法 在 备 
库 上 找到 数据 ， 还 可 以 通过 主 库 来 查询 。 即 使 不 能 从 备 库 上 读 取 所 有 数据 ， 也 可 以 移 除 
大 量 的 主 库 读 负担 。 | 


最 简单 的 方法 是 在 主 库 上 将 数据 划分 到 不 同 的 数据 库 里 。 然 后 将 每 个 数据 库 复制 到 不 同 
的 备 库 上 。 例 如 ， 若 需要 将 公司 的 每 一 个 部 门 的 数据 复制 到 不 同 的 备 库 ， 可 以 创建 名 为 
sales, marketing, procurement 等 的 数据 库 ， 每 个 备 库 通过 选项 replicate wild do 
table 选项 来 限制 给 定数 据 库 的 数据 。 下 面 是 sales 数据 库 的 配置 : 


replicate wild do table = sales.% 


也 可 以 通过 一 台 分 发 主 库 进 行 分 发 。 举 个 例子 ， 如 果 想 通过 一 个 很 慢 或 者 非常 昂贵 的 网 
络 ， 从 一 台 负 载 很 高 的 数据 库 上 复制 一 部 分 数据 ， 就 可 以 使 用 一 个 包含 blackhole 表 和 
过 滤 规 则 的 本 地 分 发 主 库 ， 分 发 主 库 可 以 通过 复制 过 滤 移 除 不 需要 的 日 志 。 这 可 以 避免 
在 主 库 上 进行 不 安全 的 日 志 选 项 设 定 ， 并 且 无 须 传输 所 有 的 数据 到 远程 备 库 。 


分 离 功能 

许多 应 用 都 混合 了 在 线 事务 处 理 (OLTP) 和 在 线 数据 分 析 (OLAP) 的 查询 。OLTP 查 
询 比 较 短 并 且 是 事务 型 的 , OLAP 查询 则 通常 很 大 , 也 很 慢 , 并 且 不 要 求 绝对 最 新 的 数据 。 
这 两 种 查询 给 服务 器 带 来 的 负担 完全 不 同 ， 因 此 它们 需要 不 同 的 配置 ， 蕉 至 可 能 使 用 不 
同 的 存储 引擎 或 者 硬件 。 


一 个 和 贡 见 的 办 法 是 将 OLTP 服务 器 的 数据 复制 到 专门 为 OLAP 工作 负载 准备 的 备 库 上 。 
这 些 备 库 可 以 有 不 同 的 硬件 、 配 置 、 索 引 或 者 不 同 的 存储 引擎 。 如 果 决 定 在 备 库 上 执行 
OLAP 查询 ， 就 可 能 需要 忍受 更 大 的 复制 延迟 或 降低 备 库 的 服务 质量 。 这 意味 着 在 一 个 
非 专 用 的 备 库 上 执行 一 些 任 务 时 ， 可 能 会 导致 不 可 接受 的 性 能 ， 例 如 执行 一 条 长 时 间 运 
行 的 查询 。 | 
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无 须 做 一 些 特殊 的 配置 ， 除 了 需要 选择 忽略 主 库 上 的 一 些 数据 ， 前 提 是 能 获得 明显 的 提 
升 。 即 使 通过 复制 过 滤器 过 滤 掉 一 小 部 分 的 数据 也 会 减少 WO 和 缓存 活动 。 


数据 归档 | 

可 以 在 备 库 上 实现 数据 归档 ， 也 就 是 说 可 以 在 备 库 上 保留 主 库 上 删除 过 的 数据 ， 在 主 库 
上 通过 delete 语句 删除 数据 是 确保 delete 语句 不 传递 到 备 库 就 可 以 实现 。 有 两 种 通常 的 
办 法 : 一 种 是 在 主 库 上 选择 性 地 禁止 二 进 制 日 志 ， 另 一 种 是 在 备 库 上 使 用 replicate_ 
ignore_db 规则 (是 的 ， 两 种 方法 都 很 危险 )。 


第 一 种 方法 需要 先 将 SQL_L0G _ BIN 设置 为 0， 然 后 再 进行 数据 清理 。 这 种 方法 的 好 处 是 
不 需要 在 备 库 进 行 任何 配置 ， 由 于 SQL 语句 根本 没有 记录 到 二 进 制 日 志 中 ， 效 率 会 稍微 
有 所 提升 。 最 大 缺点 也 正 因为 没有 将 在 主 库 的 修改 记录 下 来 ， 因 此 无 法 使 用 二 进 制 日 志 
来 进行 审计 或 者 做 按时 间 点 的 数据 恢复 。 另 外 还 需要 SUPER 权限 。 


第 二 种 方法 是 在 清理 数据 之 前 对 主 库 上 特定 的 数据 库 使 用 USE 语 句 。 例 如 ， 可 以 创建 一 
个 名 为 purge 的 数据 库 ， 然 后 在 备 库 的 zy cn 文件 里 设置 replicate ignore db=purge 
并 重启 服务 器 。 备 库 将 会 忽略 使 用 了 USE 语 名 指定 的 数据 库 。 这 种 方法 没有 第 一 种 方法 
的 缺点 ， 但 有 另 一 个 小 小 的 缺点 : 备 库 需 要 去 读 取 它 不 需要 的 事件 。 另 外 ， 也 可 能 有 人 
在 purge 数据 库 上 执行 非 清理 查询 ， 从 而 导致 备 库 无 法 重 放 该 事件 。 


Percona Toolkit 中 的 pt-archiver 支持 以 上 两 种 方式 。 





"一 J] 第 三 种 办 法 是 利用 binlog_ignore_db 来 过 滤 复 制 事件 。 但 正如 之 前 提 到 的 ， 这 是 一 
。 种 很 危险 的 操作 。 
4, 


将 备 库 用 作 全 文 检索 

许多 应 用 要 求 合并 事务 和 全 文 检 索 。 然 而 在 写作 本 书 时 ， 仅 有 MyISAM 支持 全 文 检索 ， 
但 是 MyISAM 不 支持 事务 (在 MySQL 5.6 有 一 个 实验 室 预览 版 本 实现 了 InnoDB 的 全 
文 检索 ， 但 尚未 GA)。 一 个 普遍 的 做 法 是 配置 一 台 备 库 ， 将 某 些 表 设 置 为 MyISAM 存 
储 引擎 ， 然 后 创建 全 文 索引 并 执行 全 文 检索 查询 。 这 避免 了 在 主 库 上 同时 使 用 事务 型 和 
非 事 务 型 存储 引擎 所 带 来 的 复制 问题 ,减轻 了 主 库 维护 全 文 索 引 的 负担 。 


REEF 


许多 机 构 选 择 将 备 库 设 置 为 只 读 ， 以 防止 在 备 库 进 行 的 无 意识 修改 导致 复制 中 断 。 可 以 
通过 设置 read_only 选项 来 实现 。 它 会 禁止 大 部 分 写 操作 ， 除 了 复制 线程 和 拥有 超级 权 
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限 的 用 户 以 及 临时 表 操 作 。 只 要 不 给 也 不 应 该 给 普通 用 户 超级 权限 ， 这 应 该 是 很 完美 的 
方法 。 


模拟 多 主 库 复制 | 480 
当前 MySQL 不 支持 多 主 库 复制 (一 个 备 库 拥有 多 个 主 库 ) 。 但 是 可 以 通过 把 一 台 备 库 轮 

流 指向 多 台 主 库 的 方式 来 模拟 这 种 结构 。 例 如 ， 可 以 先 将 备 库 指向 主 库 A， 运 行 片刻 ， 

再 将 其 指向 主 库 B 并 运行 片刻 ， 然 后 再 次 切换 回 主 库 A。 这 种 办 法 的 效果 取决 于 数据 以 

及 两 台 主 库 导致 备 库 所 需 完成 的 工作 量 。 如 果 主 库 的 负载 很 低 ， 并 且 主 库 之 间 不 会 产生 

更 新 冲突 ， 就 会 工作 得 很 好 。 

需要 做 一 些 额外 的 工作 来 为 每 个 主 库 跟 踪 二 进 制 日 志 坐 标 。 可 能 还 需要 保证 备 库 的 1/0 
线程 在 每 一 次 循环 提取 超过 需要 的 数据 ， 否 则 可 能 会 因为 每 次 循环 反复 地 提取 和 抛弃 大 

量 数据 导致 主 库 的 网 络 流量 和 开销 明显 增 大 。 | 


还 可 以 使 用 主 - 主 〈 或 者 环形 ) 复制 结构 以 及 使 用 blackhole 存储 引擎 表 的 备 库 来 进行 
模拟 ， 如 图 10-13 所 示 。 


SK = Blackhole 存储 引擎 





10-13: 使 用 双 主 结构 和 blackhole 存 储 5 | 擎 表 模 拟 多 主 复制 


在 这 种 配置 中 ， 两 台 主 库 拥 有 自己 的 数据 ， 但 也 包含 了 对 方 的 表 ， 但 是 对 方 的 表 使 用 
blackhole 存储 引擎 以 避免 在 其 中 存储 实际 数据 。 备 库 和 其 中 任意 一 个 主 库 相连 都 可 以 。 
KEMEN blackhole 存储 引擎 ， 因 此 其 对 两 个 主 库 而 言 都 是 有 效 的 。 


事实 上 并 不 一 定 需要 主 - 主 拓扑 结构 来 实现 ， 可 以 简单 地 将 serverl 复制 到 server2, 
再 从 server2 复制 到 备 库 。 如 果 在 server2 上 为 从 serverl 上 复制 的 数据 使 用 blackhole 
存储 引擎 ， 就 不 会 包含 任何 server] 的 数据 ， 如 图 10-14 所 示 。 
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这 些 配 置 方法 常常 会 碰 到 一 些 常 见 的 问题 ， 例 如， 更 新 冲突 或 者 建 表 时 明确 指定 存储 引 


另外 一 个 选择 是 使 用 Continuent 的 Tungsten Replicator， 我 们 会 在 本 章 稍 后 部 分 讨论 ，。 


创建 日 志 服 务 器 

使 用 MySQL 复制 的 另 一 种 用 途 就 是 创建 没有 数据 的 日 志 服 务 器 。 它 唯一 的 目的 就 是 更 
加 容易 重 放 并 且 /或 者 过 滤 二 进 制 日 志 事件 。 就 如 本 章 稍 后 所 述 ， 它 对 崩溃 后 重启 复制 
很 有 帮助 。 同 时 对 基于 时 间 点 的 恢复 也 很 有 帮助 ， 在 第 15 章 我 们 会 讨论 。 


假设 有 一 组 二 进 制 日 志 或 中 继 日 志 可 能 从 备份 或 者 一 台 有 崩溃 的 服务 器 上 获取 一 一 希 
望 能 够 重 放 这 些 日 志 中 的 事件 ， 可 以 通过 mysgqlbinlog 工具 从 其 中 提取 出 事件 ， 但 更 加 
方便 和 高 效 的 方法 是 配置 一 个 没有 任何 数据 的 MySQL 实例 并 使 其 认为 这 些 二 进 制 日 志 
是 它 拥有 的 。 如 果 只 是 临时 需要 ， 可 以 从 http sepa 上 获得 一 个 MySQL 沙 
箱 脚本 来 创建 日 志 服 务 器 。 因 为 无 须 执 行 二 进 制 日 志 ， 日 志 服 务 器 也 就 不 需要 任何 数据 。 
它 的 目的 仅仅 是 将 数据 提供 给 别 的 服务 器 (但 ery 


我 们 来 看 看 该 策略 是 如 何 工 作 的 〈 稍 后 会 展示 一 些 相关 应 用 )。 假设 日 志 被 命名 为 
somelog-bin.000001、somelog-bin.000002， 等 等 ， 将 这 些 日 志 放 到 日 志 服 务 器 的 日 志文 





ERF, REA war/1log/mysq1。 然 后 在 启动 服务 器 前 编辑 my.cnf 文件 ， 如 下 所 示 : 


log bin = /var/log/mysql/somelog-bin 
log bin index = /var/log/mysql/somelog-bin.index 


服务 器 不 会 目 动 发 现 日 志文 件 ， 因 此 还 需要 更 新 日 志 的 索引 文件 。 下 面 这 个 命令 可 以 在 
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类 UNIX 系统 上 完成 “"。 
# /bin/1s -1 /var/log/mysql/somelog-bin.[0-9]* > /var/log/mysql/somelog-bin.index 


确保 运行 MySQL 的 账户 能 够 读 写 日 志 索 引文 件 。 现 在 可 以 启动 日 志 服务 器 并 通过 SHOW 
MASTER LOGS 命令 来 确保 其 找到 日 志文 件 。 


为 什么 使 用 日 志 服 务 器 比 用 mysqlbinlog 来 实现 恢复 更 好 呢 ? 有 以 下 几 个 原因 : 


。 复制 作为 应 用 二 进 制 日 志 的 方法 已 经 被 大 量 的 用 户 所 测试 ， 能 够 证 明 是 可 行 的 。 
mysqlbinlog 并 不 能 确保 像 复 制 那样 工作 ， 并 且 可 能 无 法 正确 生成 二 进 制 日 志 中 的 数 
据 更 新 。 

。 复制 的 速度 更 快 ， 因 为 无 须 将 语句 从 日 志 导 出 来 并 传送 给 MySQL., 

e。 可 以 很 容易 观察 到 复制 过 程 。 

。 能够 更 方便 处 理 错误 。 例 如 ， 可 以 跳 过 执行 失败 的 语句 。 

© 更 方便 过 滤 复 制 事 件 。 

。 有 了 时候 mysglbinlog 会 因为 日 志 记 录 格 式 更 改 而 无 法 读 取 二 进 制 日 志 。 


10.5 复制 和 容量 规划 | 

写 操作 通常 是 复制 的 瓶颈 ， 并 且 很 难 使 用 复制 来 扩展 写 操作 。 当 计划 为 系统 增加 复制 容 
量 时 ， 需 要 确保 进行 了 正确 的 计算 ， 否 则 很 容易 犯 一 些 复制 相关 的 错误 。 

例如 ， 假 设 工 作 负载 为 20% 的 写 以 及 80% 的 读 。 为 了 计算 简单 ， 假 设 有 以 下 前 提 : 

¢ 读 和 写 查询 包含 同样 的 工作 量 。 | 

。 所 有 的 服务 器 是 等 同 的 ， 每 秒 能 进行 1000 次 查询 。 

© 备 库 和 主 库 有 同样 的 性 能 特征 。 

© 可 以 把 所 有 的 读 操作 转移 到 备 库 。 


如 果 当 前 有 一 个 服务 器 能 支持 每 秒 1 000 次 查询 ， 那 么 应 该 增加 多 少 备 库 才 能 处 理 当前 
两 倍 的 负载 ， 并 将 所 有 的 读 查 询 分 配给 备 库 ? 


看 上 去 应 该 增加 两 个 备 库 并 将 1 600 次 读 操作 平分 给 它们 。 但 是 不 要 忘记 ， 写 入 负载 同 
样 增加 到 了 400 次 每 秒 ， 并 且 无 法 在 主 备 服务 器 之 间 进 行 分 摊 。 每 个 备 库 每 秒 必须 处 理 

400 次 写 入 ， 这 意味 着 每 个 备 库 写 入 占 了 40%， 只 能 每 秒 为 600 次 查询 提供 服务 。 因 此 ， 

需要 三 台 而 不 是 两 台 备 库 来 处 理 双 倍 负 载 。 

如 果 负 载 再 增加 一 倍 呢 ? 将 有 每 秒 800 次 写 信 ， 这 时 候 主 库 还 能 处 理 ， 但 备 库 的 写 入 同 

注 14 : 我 们 明确 地 使 用 /bin/ls 以 避免 启用 通用 别名 ， 它 们 会 为 终 问 着 色 添加 转 义 码 。 | 
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样 也 提升 到 80%， 这 样 就 需要 16 台 备 库 来 处 理 每 秒 3 200 次 读 查 询 。 并 且 如 果 再 增加 一 
点 负载 ， 主 库 也 会 无 法 承担 。 


这 远 远 不 是 线性 扩展 ， 查 询 数 量 增加 4 倍 ， 却 需要 增加 17 倍 的 服务 器 。 这 说 明 当 为 单 
台 主 库 增 加 备 库 时 ， 将 很 快 达到 投入 远 高 于 回报 的 地 步 。 这 仅仅 是 基于 上 面 的 假设 ， 还 
忽略 了 一 些 事情 ， 例 如 ， 单 线程 的 基于 语句 的 复制 常常 导致 备 库容 量 小 于 主 库 。 真 实 的 
复制 配置 比 我 们 的 理论 计算 还 要 更 差 。 


10.5.1 为 什么 复制 无 法 扩展 写 操作 
粳 糕 的 服务 容量 比例 的 根本 原因 是 不 能 像 分 发 读 操 作 那 样 把 写 操 作 等 同 地 分 发 到 更 多 服 
务 细 上 。 换 句 话 说 ， 复 制 只 能 扩展 读 操作 ， 无 法 扩展 写 操 作 。 


你 可 能 想 知道 到 底 有 没有 办 法 使 用 复制 来 增加 写 入 能 力 。 答 案 是 否定 的 ， 根 本 不 行 。 对 
数据 进行 分 区 是 唯一 可 以 扩展 写 入 的 方法 ， 我 们 在 下 一 章 会 讲 到 。 


一 些 读者 可 能 会 想到 使 用 主 - 主 拓扑 结构 (参阅 前 面 介绍 的 “主动 - 主动 模式 下 的 主 - 
ER il”) 并 为 两 个 服务 器 执行 写 操作 。 这 种 配置 比 主 备 结构 能 支持 稍微 多 一 点 的 写 人 ， 
因为 可 以 在 两 台 服 务 器 之 间 共 享 串 行 化 带 来 的 开销 。 如 果 每 台 服 务 器 上 执行 50% 的 写 
入 ， 那 复制 的 执行 量 也 只 有 50% 需要 串 行 化 。 理 论 上 讲 ， 这 上 比 在 一 台 机 器 上 (ER) 对 
100% 的 写 入 并 发 执行 ， 而 在 另外 一 台 机 器 ( 备 库 ) 上 对 100% 的 写 入 做 串 行 化 要 更 优 。 


这 可 能 看 起 来 很 吸引 人 ， 然 而 这 种 配置 还 比 不 上 单 台 服务 器 能 支持 的 写 入 。 一 个 有 50% 
的 写 人 被 串 行 化 的 服务 器 性 能 比 一 台 全 部 写 人 都 并 行 化 的 服务 器 性 能 要 低 。 


这 是 这 种 策略 不 能 扩展 写 人 的 原因 。 它 只 能 在 两 台 服务 器 间 共 享 串 行 化 写 人 的 缺点 。 所 
以 “ 链 中 最 弱 的 一 环 ” 并 不 是 那么 弱 ， 它 只 提供 了 比 主动 - 被 动 复制 稍微 好 点 的 性 能 ， 
但 是 增加 了 很 大 的 风险 ， 通常 不 能 带 来 任何 好 处 ， 具 体 原 因 见 下 一 布 。 


10.5.2 备 库 什 么 时 候 开始 延迟 


一 个 关于 备 库 比较 普遍 的 问题 是 如 何 预测 备 库 会 在 何 时 跟 不 上 主 库 。 很 难 去 描述 备 库 使 
用 的 复制 容量 为 5% 与 95% 的 区 别 ， 但 是 至 少 能 够 在 接近 饱和 前 预警 并 估计 复制 容量 。 


首先 应 该 观察 复制 延迟 的 尖 刺 。 如 果 有 复制 延迟 的 曲线 图 ， 需 要 注意 到 图 上 的 一 些 短 暂 
的 延迟 又 升 ， 这 时 候 可 能 负载 加 大 ， 备 库 短 时 间 内 无 法 跟 上 主 库 。 当 负载 接近 耗 尽 备 库 
的 容量 时 ， 会 发 现 曲线 上 的 凸 起 会 更 高 更 宽 。 前 面 曲线 的 上 升 角度 不 变 ， 但 随后 当 备 库 
在 产生 延迟 后 开始 追赶 主 库 时 ， 将 会 产生 一 个 平缓 的 斜坡 。 这 些 突起 的 出 现 和 增长 是 一 
个 警告 信息 ， 意 味 着 已 经 接近 容量 限制 。 
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为 了 预测 在 将 来 的 某 个 时 间 点 会 发 生 什 么 ， 可 以 人 为 地 制造 延迟 ， 然 后 看 多 和 久 备 库 能 赶 
上 主 库 。 目 的 是 为 了 明确 地 说 明 曲 线 上 的 斜坡 的 陡 度 。 如 果 将 备 库 停 止 一 个 小 时 ， 然 后 
开启 并 在 1 小 时 内 追赶 上 ， 说 明正 常情 况 下 只 消耗 了 一 半 的 容量 。 也 就 是 说 ， 如 果 中 午 
12:00 停止 备 库 复 制 ， 在 1:00 开启 ， 并 且 在 2:00 追赶 上 ， 备 库 在 一 小 时 内 完成 了 两 个 小 
时 内 所 有 的 变更 ， 说 明 复 制 可 以 在 双 倍 速度 下 运行 。 


最 后 ， 如 果 使 用 的 是 Percona Server 或 者 MariaDB， 也 可 以 直接 获取 复制 的 利用 率 。 打 
开 服 务 器 变量 userstat， 然 后 执行 如 下 语句 ， 
mysql> SELECT * FROM INFORMATION_SCHEMA.USER_STATISTICS l 


-> WHERE USER='#mysql_system#'\G 
AERA A AR A A A k AAR AK 1 了 OW 2699 ea ca okk kkk kk kkk kkk k 
USER: #mysql_ system# 
TOTAL_CONNECTIONS: 1 
CONCURRENT CONNECTIONS: 2 
CONNECTED TIME: 46188 
BUSY TIME: 719 
ROWS FETCHED: 0 
ROWS UPDATED: 1882292 
SELECT COMMANDS: 0 
UPDATE_COMMANDS: 580431 
OTHER COMMANDS: 338857 
COMMIT TRANSACTIONS: 1016571 
ROLLBACK_TRANSACTIONS: 0 


可 以 将 BUSY TIME 和 CONNECTED TIME 的 一 半 (因为 备 库 有 两 个 复制 线程 ) 做 比较 ， 来 观 
察 备 库 线 程 实际 执行 命令 所 花费 的 时 间 生 ”。 在 我 们 的 例子 里 ， 备 库 大 约 使 用 了 其 3% 的 
能 力 ， 这 并 不 意味 着 它 不 会 遇 到 偶然 的 延迟 尖 刺 一 一 如 果 主 库 运 行 了 一 个 超过 10 分 钟 
才 完 成 的 变更 ， 可 能 延迟 的 时 间 和 变更 执行 的 时 间 是 相同 的 一 一 但 这 很 好 地 上 暗示 了 备 库 
能 够 很 快 从 一 个 延迟 尖 刺 中 恢复 。 


10.5.3 规划 宛 余 容量 

在 构建 一 个 大 型 应 用 时 ， 有 意 让 服务 器 不 被 充分 使 用 ， 这 应 该 是 一 种 聪明 并 且 划 算 的 方 
式 ， 尤 其 在 使 用 复制 的 时 候 。 有 多 余 容 量 的 服务 器 可 以 更 好 地 处 理 负载 尖峰 ， 也 有 更 多 
能 力 处 理 慢 速 查询 和 维护 工作 (如 OPTIMIZE TABLE 操作 ) ， 并 且 能 够 更 好 地 跟 上 复制 。 


试图 同时 疝 主 - 主 拓扑 结构 的 两 个 市 反 写 入 来 减少 复制 问题 通常 是 不 划算 的 。 分 配给 每 
台 机 器 的 读 负 和 载 应 该 低 于 50%， 否 则 ， 如 果菜 台 服 务 器 失效 ， 就 没有 足够 的 容量 了 。 如 
朱 两 全 服务 器 都 能 够 独立 处 理 负 载 ， 就 用 不 着 担心 复制 的 问题 了 。 


注 15 : 如 果 复 制 线程 总 是 在 运行 ， 你 可 以 使 用 服务 器 的 uptime 来 代替 CONNECTED TIME 的 一 半 。 
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构建 元 余 容 量 也 是 实现 高 可 用 性 的 最 佳 方式 之 一 ， 当 然 还 有 别 的 方式 ， 例 如 ， 当 错误 发 
生 时 让 应 用 在 降级 模式 下 运行 ， 第 12 章 会 介绍 更 多 的 细节 。 


10.6 复制 管理 和 维护 


配置 复制 一 般 来 说 不 会 是 需要 经 常 做 的 工作 ,除非 有 很 多 服务 器 。 但 是 一 旦 配置 了 复制 ， 
监控 和 管理 复制 拓扑 应 该 成 为 一 项 日 常 工作 ， 不 管 有 多 少 服务 器 。 


这 些 工作 应 该 尽量 自动 化 ， 但 不 一 定 需 要 自己 写 工 具 来 实现 : 在 16 章 我 们 讨论 了 几 个 
MySQL 工具 ， 其 中 许多 都 拥有 内 建 的 监控 复制 的 能 力 或 插件 。 


10.6.1 监控 复制 

复制 增加 了 MySQL 监控 的 复杂 性 。 尽 管 复制 发 生 在 主 库 和 备 库 上 ,但 大 多 数 工作 是 在 
备 库 上 完成 的 ， 这 也 正 是 最 常 出 问题 的 地 方 。 是 否 所 有 的 备 库 都 在 工作 ? 最 慢 的 备 库 延 
WEEK? MySQL 本 身 提供 了 大 量 可 以 回答 上 述 问题 的 信息 ， 但 要 实现 自动 化 监控 过 
程 以 及 使 复制 更 健壮 还 是 需要 用 户 做 更 多 的 工作 。 


在 主 库 上 ， 可 以 使 用 SHOW MASTER STATUS 命令 来 查看 当前 主 库 的 二 进 制 日 志 位 置 和 配置 
(详细 参阅 前 面 介 绍 的 “配置 主 库 和 备 库 ”部 分 )。 还 可 以 查看 主 库 当 前 有 哪些 二 进 制 日 
志 是 在 磁盘 上 的 . 


mysql> SHOW MASTER LOGS; 

+------------------ +----------- 十 
| Log name | File_size | 
+------------------ +----------- + 
| mysql-bin.000220 | 425605 | 
| mysql-bin.000221 | 1134128 | 
| mysql-bin.000222 | 13653 | 
| mysql-bin.000223 | 13634 | 
+------------------ +----------- + 


该 命令 用 于 给 PURGE MASTER LOGS 命令 决定 使 用 哪个 参数 。 另 外 还 可 以 通过 SHOW 
BINLOG EVENTS 来 查看 复制 事件 。 例 如 ， 在 运行 前 一 个 命令 后 ， 我 们 在 另 一 个 不 曾 使 用 
过 的 服务 器 上 创建 一 个 表 ， 因 为 知道 这 是 唯一 改变 数据 的 语句 ， 而 且 也 知道 语句 在 二 进 
制 日 志 中 的 偏 移 量 是 13634， 所 以 我 们 可 以 看 到 如 下 内 容 : 


mysql> SHOW BINLOG EVENTS IN 'mysql-bin.000223' FROM 13634\G 
ARR AR AK AKA AKA RAR ARAKI 9 Y 了 OW RRA Ra oR a a a a kok kk kkk kkk 
Log name: mysql-bin.000223 
Pos: 13634 
Event_type: Query 
Server _id: 1 
End log pos: 13723 
Info: use `test`; CREATE TABLE test.t(a int) 
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10.6.2 测量 备 库 延迟 

一 个 比较 普遍 的 问题 是 如 何 监 控 备 库 落后 主 库 的 延迟 有 多 大 。 虽 然 SHOW SLAVE STATUS 
输出 的 Seconds behind master 列 理论 上 显示 了 备 库 的 延 时 ， 但 由 于 各 种 各 样 的 原因 ， 
并 不 总 是 准确 的 : 


© 备 库 Seconds_behind_master 值 是 通过 将 服务 器 当前 的 时 间 惟 与 二 进 制 日 志 中 的 事 
件 的 时 间 惟 相对 比 得 到 的 ， 所 以 只 有 在 执行 事件 时 才能 报告 延迟 。 

。 如 果 备 库 复 制 线程 没有 运行 ， 就 会 报 延 迟 为 NULL。 

e 一 些 错误 (例如 主 备 的 max allowed packet 不 匹配 ， 或 者 网 络 不 稳定 ) 可 能 中 断 复 
制 并 且 /或 者 停止 复制 线程 ,但 Seconds_behind_master 将 显示 为 0 而 不 是 显示 错误 。 

。 ”即使 备 库 线程 正在 运行 ， 备 库 有 了 时候 可 能 无 法 计算 延 时 。 如 果 发 生 这 种 情况 ， 备 库 
会 报 0 或 者 NULL。 

。 一 个 大 事务 可 能 会 导致 延迟 波动 ， 例 如 ， 有 一 个 事务 更 新 数据 长 达 一 个 小 时 ， 最 后 
提交 。 这 条 更 新 将 比 它 实际 发 生 时 间 要 晚 一 个 小 时 才 记 录 到 二 进 制 日 志 中 。 当 备 库 
执行 这 条 语句 时 ， 会 临时 地 报告 备 库 延 迟 为 一 个 小 时 ， 然 后 又 很 快 变 成 0。 

。 如果 分 发 主 库 落后 了 , 并 且 其 本 身 也 有 已 经 追赶 上 它 的 备 库 , 备 库 的 延迟 将 显示 为 0， 
而 事实 上 和 源 主 库 之 间 是 有 延迟 的 。 


解决 这 些 问 题 的 办 法 是 忽略 Seconds behind master 的 值 ， 并 使 用 一 些 可 以 直接 观察 和 
衡量 的 方式 来 监控 备 库 延迟 。 最 好 的 解决 办 法 是 使 用 heartbeat record， 这 是 一 个 在 主 库 
上 会 每 秒 更 新 一 次 的 时 间 改 。 为 了 计算 延 时 ， 可 以 直接 用 备 库 当 前 的 时 间或 减 去 心跳 记 
录 的 值 。 这 个 方法 能 够 解决 刚刚 我 们 提 到 的 所 有 问题 ， 另 外 一 个 额外 的 好 处 是 我 们 还 可 
以 通过 时 间 戳 知道 备 库 当 前 的 复制 状况 。 包 含 在 Percona Toolkit 里 的 pt-heartbeat 脚本 
是 “复制 心跳 ”最 流行 的 一 种 实现 。 

心跳 还 有 其 他 好 处 ， 记 录 在 二 进 制 日 志 中 的 心跳 记录 拥有 许多 用 途 ， 例 如 在 一 些 很 难 解 
决 的 场景 下 可 以 用 于 灾难 恢复 。 


我 们 刚刚 所 摘 述 的 几 种 延迟 指标 都 不 能 表明 备 库 需要 多 长 时 间 才 能 赶 上 主 库 。 这 依赖 于 
许多 因素 ,例如 备 库 的 写 入 能 力 以 及 主 库 持续 写 入 的 次 数 。 关 于 这 个 话题 ， 详 细 参 阅 前 
面 介绍 的 “ 何 时 备 库 开始 延迟 ”。 7 


10.6.3 确定 主 备 是 否 一 臻 
在 理想 情况 下 ， 备 库 和 主 库 的 数据 应 该 是 完全 一 样 的 。 但 事实 上 备 库 可 能 发 生 错 误 并 导 
致 数据 不 一 致 。 即 使 没有 明显 的 错误 ， 备 库 同样 可 能 因为 MySQL 自身 的 特性 导致 数据 
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不 一 致 , 例如 MySQL 的 Bug, 网络 中 断 、 服 务 器 崩溃 , 非 正 常 关 闭 或 者 其 他 一 些 错误 。 坟 5 


按照 我 们 的 经 验 来 看 ， 主 备 一 致 应 该 是 一 种 规范 ， 而 不 是 例外 ， 也 就 是 说 ， 检 查 你 的 主 
备 一 致 性 应 该 是 一 个 日 常 工作 ， 特 别 是 当 使 用 备 库 来 做 备份 时 尤为 重要 ， 因 为 你 肯定 不 
项 望 从 一 个 已 经 损坏 的 备 库 里 获得 备份 数据 。 


MySQL 并 没有 内 建 的 方法 来 比较 一 台 服 务 器 与 别 的 服务 器 的 数据 是 否 相 同 。 它 提 供 了 
一 些 组 件 来 为 表 和 数据 生成 校 验 值 ， 例 如 CHECKSUM TABLE。 但 当 复制 正在 进行 时 ， 这 种 
方法 是 不 可 行 的 。 


Percona Toolkit 里 的 pt-table-checksum 能 够 解决 上 述 几 个 问题 。 其 主要 特性 是 用 于 确认 
备 库 与 主 库 的 数据 是 否 一 致 。 工 作 方式 是 通过 在 主 库 上 执行 INSERT.. .SELECT 查询 。 


这 些 查 询 对 数据 进行 校 验 并 将 结 采 播 入 到 一 个 表 中 。 这 些 语句 通过 复制 传递 到 备 库 ， 并 
在 备 库 执 行 一 遍 ， 然 后 可 以 比较 主 备 上 的 结果 是 否 一 样 。 由 于 该 方法 是 通过 复制 工作 的 ， 
它 能 够 给 出 一 致 的 结果 而 无 须 同时 把 主 备 上 的 表 都 锁 上 。 


通常 情况 下 可 以 在 主 库 上 运行 该 工具 ， 参 数 如 下 : 
$ pt-table-checksum --replicate=test.checksum <master_host> 


该 命令 将 检查 所 有 的 表 ， 并 将 结果 插入 到 test.checksum 表 中 。 当 查询 在 备 库 执行 完 后 ， 
就 可 以 简单 地 比较 主 备 之 间 的 不 同 了 。pt-table-checksum 能 够 发 现 服务 器 所 有 的 备 库 ， 
在 每 台 备 库 上 运行 查询 ， 并 自动 地 输出 结果 。 在 写作 本 书 时 ，pit-table-checksum 是 唯一 
能 够 有 效 地 比较 主 备 一 致 性 的 工具 。 


10.6.4 从 主 库 重 新 同步 备 库 

在 你 的 职业 生涯 中 ， 也 许 会 不 止 一 次 需要 去 处 理 未 被 同步 的 备 库 。 可 能 是 使 用 校 验 工具 
发 现 了 数据 不 一 致 ， 或 是 因为 已 经 知道 是 备 库 忽略 了 某 条 查询 或 者 有 人 在 备 库 上 修改 了 
数据 。 


传统 的 修复 不 一 致 的 办 法 是 关闭 备 库 ， 然 后 重新 从 主 库 复 制 一 份 数据 。 当 备 库 数据 不 一 
致 的 问题 可 能 导致 严重 后 采 了 时 ， 一旦 发 现 就 应 该 将 备 库 停止 并 从 生产 环境 移 除 ， 然 后 再 
从 一 个 备份 中 克隆 或 恢复 备 库 。 


这 种 方法 的 缺 氮 是 不 太 方便 ， 特 别 是 数据 量 很 大 时 。 如 采 能 够 找 出 并 修复 不 一 致 的 数据 ， 
要 比 从 其 他 服务 器 上 重新 殉 隆 数据 要 有 效 得 多 。 如 果 发 现 的 不 一 致 并 不 严重 ， 就 可 以 保 
持 备 库 在 线 ， 并 重新 同步 受 影响 的 数据 。 


注 16 : 如 果 你 正在 使 用 非 事务 型 存储 引 党 ， 不 首先 调用 STOP SLAVE 就 关闭 服务 器 是 很 不 妥当 的 。 
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最 简单 的 办 法 是 使 用 mysqldump 转 储 受 影响 的 数据 并 重新 导入 。 在 整个 过 程 中 ， 如 果 数 
据 没 有 发 生变 化 ， 这 种 方法 会 很 好 。 你 可 以 在 主 库 上 简单 地 锁 住 表 然 后 进行 转 储 ， 再 等 
待 备 库 赶 上 主 库 ， 然 后 将 数据 导入 到 备 库 中 。(〈 需 要 等 待 备 库 赶 上 主 库 ， 这 样 就 不 至 于 
为 其 他 表 引 入 新 的 不 一 致 ， 例 如 那些 可 能 通过 和 失去 同步 的 表 做 join 后 进行 数据 更 新 的 
K)o 


BRIX EE Som TETIT, (ETSI AOR a LAT RET Hi. BI 
个 缺点 是 在 备 库 上 通过 非 复 制 的 方式 改变 数据 。 通 过 复制 改变 备 库 数 据 〈 通 过 在 主 库 上 
执行 更 新 ) 通常 是 一 种 安全 的 技术 ， 因 为 它 避 免 了 竞争 条 件 和 其 他 意料 外 的 事情 。 如 果 
表 很 大 或 者 网 络 带 宽 受 限 ， 转 储 和 重 载 数据 的 代价 依然 很 高 。 当 在 一 个 有 一 百 万 行 的 表 
上 只 有 一 千 行 不 同 的 数据 呢 ? 转 储 和 重 载 表 的 数据 是 非常 浪费 资源 的 。 


pt-table-sync 是 Percona Toolkit 中 的 另外 一 个 工具 ， 可 以 解决 该 问题 。 该 工具 能 够 高 效 
地 查找 并 解决 表 之 间 的 不 同 。 它 同样 通过 复制 工作 ， 在 主 库 上 执行 查询 ， 在 备 库 上 重新 
同步 ， 这 样 就 没有 竞争 条 件 。 它 是 结合 pt-table-checksum 生成 的 checksum 表 来 工作 的 ， 
所 以 只 能 操作 那些 已 知 不 同步 的 表 的 数据 块 。 但 该 工具 不 是 在 所 有 场景 下 都 有 效 。 为 了 
正确 地 同步 主 库 和 备 库 ,该 工具 要 求 复 制 是 正常 的 ， 否 则 就 无 法 工作 。pt-table-sync 设 
计 得 很 高 效 ， 但 当 数 据 量 非常 大 时 效率 还 是 会 很 低 。 比 较 主 库 和 备 库 上 ITB 的 数据 不 可 
避免 地 会 带 来 额外 的 工作 。 尽 管 如 此 ， 在 那些 合适 的 场景 中 ， 该 工具 依然 能 节约 大 量 的 
时 间 和 工作 。 


10.6.5 改变 主 库 
迟早 会 有 把 备 库 指 向 一 个 新 的 主 库 的 需求 。 也 许 是 为 了 更 迭 升级 服务 器 ， 或 者 是 主 库 出 


现 问 题 时 需要 把 一 台 备 库 转 换 成 主 库 , 或 者 只 是 希望 重新 分 配 容量 。 不 管 出 于 什么 原因 ,， 


都 需要 告诉 其 他 的 备 库 新 主 库 的 信息 。 


如 果 这 是 计划 内 的 操作 ， 会 比较 容易 (至 少 比 紧急 情况 下 要 容易 )。 只 需 在 备 库 简单 地 

使 用 CHANGE MASTER TO 命令 ， 并 指定 合适 的 值 。 大 多 数值 都 是 可 选 的 。 只 需要 指定 需要 

改变 的 项 即 可 。 备 库 将 抛弃 之 前 的 配置 和 中 继 日 志 并 从 新 的 主 库 开始 复制 。 同 样 新 的 参 
会 被 更 新 到 master.info 文件 中 ， 这 样 就 算 重启 ， 备 库 配置 信息 也 不 会 丢失 。 


整个 过 程 中 最 难 的 是 获取 新 主 库 上 合适 的 二 进 制 日 志 位 置 ， 这 样 备 库 才 可 以 从 和 老 主 库 
相同 的 逻辑 位 置 开始 复制 。 


把 备 库 提升 为 主 库 要 更 困难 一 点 。 有 两 种 场景 需要 将 备 库 蔡 换 为 主 库 ， 一 种 是 计划 内 的 
提升 ， 一 种 是 计划 外 的 提升 。 
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计划 内 的 提升 
把 备 库 提 升 为 主 库 理论 上 是 很 简单 的 。 简 单 来 说 ， 有 以 下 步 又 : 


1. 
9 
3. 
4. 


停止 向 老 的 主 库 写 入 。 

让 备 库 追 赶 上 主 库 《可 选 的 ， 会 简化 下 面 的 步 又 ) 。 
将 一 台 备 库 配置 为 新 的 主 库 。 

将 备 库 和 写 操 作 指 向 新 的 主 库 ， 然 后 开启 主 库 的 写 入 。 


但 这 其 中 还 隐藏 着 很 多 细 市 。 一 些 场景 可 能 依赖 于 复制 的 拓扑 结构 。 例 如 ， 主 - 主 结 构 
和 主 - 备 结构 的 配置 就 有 所 不 同 。 


更 深入 一 点 ， 下 面 是 大 多 数 配置 需要 的 步骤 : 


l. 


停止 当前 主 库 上 的 所 有 写 操 作 。 如 果 可 以 ， 最 好 能 将 所 有 的 客户 端 程序 关闭 (除了 
复制 连接 ) 。 为 客户 端 程序 建立 一 个 “do not run” 这 样 的 类 似 标记 可 能 会 有 所 帮助 。 
如 果 正 在 使 用 虚拟 IP 地址 ， 也 可 以 简单 地 关闭 虚拟 卫 ， 然 后 断 开 所 有 的 客户 端 连接 
以 关闭 其 打开 的 事务 。 

通过 FLUSH TABLES WITH READ LOCK 在 主 库 上 停止 所 有 活跃 的 写 人 ， 这 一 步 是 可 选 
的 。 也 可 以 在 主 库 上 设置 read_ontLy 选 项。 从 这 一 刻 开 始 ， 应 该 禁止 向 即将 被 替换 
的 主 库 做 任何 写 入 。 因 为 一 旦 它 不 是 主 库 ， 写 入 就 意味 着 数据 丢失 。 注 意 ， 即 使 设 
S read_only 也 不 会 阻止 当前 已 存在 的 事务 继续 提交 。 为 了 更 好 地 保证 这 一 氮 ， 可 
以 “kill” 所 有 打开 的 事务 ， 这 将 会 真正 地 结束 所 有 写 入 。 


. 选择 一 个 备 库 作为 新 的 主 库 ， 并 确保 它 已 经 完全 跟 上 主 库 ( 例 如， 让 它 执行 完 所 有 


从 主 库 获得 的 中 继 日 志 )。 

确保 新 主 库 和 旧 主 库 的 数据 是 一 致 的 。 可 选 。 

在 新 主 库 上 执行 STOP SLAVE。 | 

在 新 主 库 上 执行 CHANGE MASTER TO MASTER HOST='…' ， 然 后 再 执行 RESET SLAVE, {Ë 
其 断 开 与 老 主 库 的 连接 ， 并 丢弃 master.info 里 记录 的 信息 (如果 连接 信息 记录 在 
my.cnf 里， 会 无 法 正确 工作 ， 这 也 是 我 们 建议 不 要 把 复制 连接 信息 写 到 配置 文件 里 
的 原因 之 一 )。 

执行 SHOW MASTER STATUS 记录 新 主 库 的 二 进 制 日 志 坐标 。 

确保 其 他 备 库 已 经 追赶 上 。 

关闭 旧 主 库 。 


. Æ MySQL 5.1 及 以 上 版 本 中 ， 如 果 需 要 ， 激 活 新 主 库 上 事件 。 
.将 客户 端 连接 到 新 主 库 。 
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.在 每 台 备 库 上 执行 CHANGE MASTER TO0 语句 ， 使 用 之 前 通过 SHOW MASTER STATUS žk <41] 
得 的 二 进 制 日 志 坐 标 ， 来 指向 新 的 主 库 。 


。 可 能 还 需要 修改 备 库 特有 的 配置 选项 ， 例 如 innodb_flush_log_at_trx_commit 选项 。 
S 同样 的 ， 如 果 是 把 主 库 降 级 为 备 库 ， 也 要 保证 进行 需要 的 配置 。 


如 果 主 备 的 配置 相同 ， 就 不 需要 做 任何 改变 。 


Fa oo | 
Ey | 当 将 备 库 提升 为 主 库 时 ， 要 确保 备 库 上 任何 特有 的 数据 库 、 表 和 权限 已 经 被 移 除 。 
wW 


计划 外 的 提升 
当主 库 崩 溃 时 ， 需 要 提升 一 台 备 库 来 代替 它 ， 这 个 过 程 可 能 就 不 太 容 易 。 如 果 只 有 一 
台 备 库 ， 可 以 直接 使 用 这 人 台 备 库 。 但 如 果 有 超过 一 台 的 备 库 ， 就 需要 做 一 些 额外 的 工 
作 。 | 


FAS, GABBER HEAR. VHEAER LOREEN ERORLA EMEEN 
任何 一 台 备 库 上 的 情况 。 其 至 还 可 能 一 条 语句 在 主 库 上 执行 了 回 深 ， 但 在 备 库 上 没有 回 
滚 ， 这 样 备 库 可 能 超过 主 库 的 逻辑 复制 位 置 ““。 如 果 能 在 某 一 点 恢复 主 库 的 数据 ， 也 许 
就 可 以 取得 丢失 的 语句 并 手动 执行 它们 。 


在 以 下 步 邓 中 ， 需 要 确保 在 计算 中 使 用 Master Log File #1 Read Master Log Pos 的 值 。 
以 下 是 对 主 备 拓扑 结构 中 的 备 库 进行 提升 的 过 程 : 


1. 确定 哪 台 备 库 的 数据 最 新 。 检 查 每 台 备 库 上 SHOW SLAVE STATUS 命令 的 输出 ， 选 择 
其 中 Master Log File/read Master Log Pos 的 值 最 新 的 那个 。 

2. 让 所 有 备 库 执行 完 所 有 其 从 崩溃 前 的 旧 主 库 那 获得 的 中 继 日 志 。 如 果 在 未 完成 前 修 
改 备 库 的 主 库 ， 它 会 抛弃 剩 下 的 日 志 事件 ， 从 而 无 法 获知 该 备 库 在 什么 地 方 停止 。 

3. 执行 前 一 小 节 的 5 ~ 7 步 。 

4. 比较 每 台 备 库 和 新 主 库 上 的 Master_Log File/Read Master_Log Pos 的 值 。 

5. 执行 前 一 小 节 的 10 ~ 12 步 。 


正如 本 章 开 始 我 们 推荐 的 ， 假 设 已 经 在 所 有 的 备 库 上 开启 了 Log_bin 和 Log_ slave_ 
updates， 这 样 可 以 帮助 你 将 所 有 的 备 库 恢复 到 一 个 一 致 的 时 间 点 ， 如 果 没 有 开启 这 两 个 
选项 ， 则 不 能 可 靠 地 做 到 这 一 点 。 


417: 这 是 有 可 能 的 ， 即 使 MySQL 在 事务 提交 前 并 不 记录 任何 事件 。 具 体 参 阅 “ 混 合 事务 型 和 非 事 务 型 
表 ”。 另 外 一 种 场景 是 主 库 崩 演 后 恢复 ， 但 没有 设置 innodb flush log at trx commit 的 值 为 1, ` 
所 以 可 能 丢失 一 些 更 新 。 
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确定 期 望 的 日 志 位 置 

如 果 有 备 库 和 新 主 库 的 位 置 不 相同 ， 则 需要 找到 该 备 库 最 后 一 条 执行 的 事件 在 新 主 库 的 
二 进 制 日 志 中 相应 的 位 置 ， 然 后 再 执行 CHANGE MASTER T0。 可 以 通过 mysqlbinlog 工具 
来 找到 备 库 执行 的 最 后 一 条 查询 ， 然 后 在 主 库 上 找到 同样 的 查询 ， 进 行 简 单 的 计算 即 可 
得 到 。 


为 了 便于 描述 ， 假 设 每 个 日 志 事 件 有 一 个 自 增 的 数字 ID， 最 新 的 备 库 ， 也 就 是 新 主 
库 ， 在 旧 主 库 崩 省 时 获得 了 编号 为 100 的 事件 ， 假 设 有 另外 两 台 备 库 : repLica2 和 
replica3。replica2 已 经 获取 了 99 号 事件 ，replica3 获取 了 98 号 事件 。 如 果 把 两 台 备 
库 都 指向 新 主 库 的 同一 个 二 进 制 日 志 位 置 ， 它 们 将 从 101 号 事件 开始 复制 ， 从 而 导致 数 
据 不 同步 。 但 只 要 新 主 库 的 二 进 制 日 志 已 经 通过 log slave updates 打开 ， 就 可 以 在 新 
主 库 的 二 进 制 日 志 中 找到 99 号 和 100 号 日 志 ， 从 而 将 备 库 恢复 到 一 致 的 状态 。 


由 于 服务 器 重启 ， 不 同 的 配置 ， 日 志 轮 转 或 者 FLUSH LOGS 命令 ， 同 一 个 事件 在 不 同 的 服 
务 器 上 可 能 有 不 同 的 偏 移 量 。 找 到 这 些 事件 可 能 会 耗 时 很 长 并 且 枯 燥 ， 但 是 通常 没有 难 
度 。 通 过 mysgqlbinlog 从 二 进 制 日 志 或 中 继 日 志 中 解析 出 每 台 备 库 上 执行 的 最 后 一 个 事件 ， 
并 同样 使 用 该 命令 解析 新 主 库 上 的 二 进 制 日 志 ， 找 到 相同 的 查询 ，mysgqlbinlog 会 打印 出 
该 事件 的 偏 移 量 ， 在 CHANGE MASTER T0 命令 中 使 用 这 个 值 二 1。 


更 快 的 方法 是 把 新 主 库 和 停止 的 备 库 上 的 字 节 偏 移 量 相 减 ， 它 显示 了 字 节 位 置 的 差异 ， 
然后 把 这 个 值 和 新 主 库 当 前 二 进 制 日 志 的 位 置 相 减 ， 就 可 以 得 到 期 望 的 查询 的 位 置 。 只 
需要 验证 一 下 就 可 以 据 此 启动 备 库 。 


让 我 们 看 看 一 个 相关 的 例子 ， 假 设 server] Æ server2 和 server3 的 主 库 ， 其 中 服务 器 
serverl ©% aaiit. #RHB SHOW SLAVE STATUS 获得 Master Log File/Read Master Log 
Pos 的 值 ，server2 已 经 执行 完了 serverl 上 所 有 的 二 进 制 日 志 ， 但 server3 还 不 是 最 新 
数据 。 图 10-15 显示 了 这 个 场景 (日 志 事 件 和 偏 移 量 仅仅 是 为 了 举例 )。 


正如 图 10-15 所 示 ， 我 们 可 以 肯定 server2 已 经 执行 完了 主 库 上 的 所 有 二 进 制 日 志 , Al 
为 Master Log File 和 Read Master Log Pos 值 和 serverl 上 最 后 的 日 志 位 置 是 相 吻 合 
的 ， 因 此 我 们 可 以 将 server2 提升 为 新 主 库 ， 并 将 server3 设置 为 server2 的 备 库 。 


应 该 在 server3 上 为 需要 执行 的 CHANGE MASTER T0 语句 赋予 什么 样 的 参数 呢 ? 这 里 需要 
做 一 点 点 计算 和 调查 。server3 在 偏 移 量 1493 停止 ， 比 server2 执行 的 最 后 一 条 语句 的 
偏 移 量 1582 要 小 89 字 市 。server2 正 在 向 偏 移 量 为 8167 的 二 进 制 日 志 写 和 信 ，8167-89= 
8078， 因 此 理论 上 我 们 应 该 将 server3 指向 server2 的 日 志 的 偏 移 量 为 8078 的 位 置 。 最 


注 18 : 正如 前 面 提 到 的 ，pt-heartbeat 的 心跳 记录 能 够 很 好 地 帮助 你 找到 你 正在 查找 的 事件 的 大 约 位 置 。 
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好 去 确认 下 这 个 位 置 附近 的 日 志 事件 ， 以 确定 在 该 位 置 上 是 否 是 正确 的 日 志 事件 ， 因 为 
可 能 有 别 的 例外 ， 例 如 有 些 更 新 可 能 只 发 生 在 server2 上 。 


1450 
1493 ,| 
1582 | 


Master_Log_File = mysql-bin.000001 Master_Log_File = mysql-bin.000001 
Read_Master_Log_Pos = 1582 Read_Master_Log_Pos = 1493 


mysql-bin.000009 
为 了 清楚 起 见 ， 
省 略 二 进 制 日 志 
文件 





图 10-15: 当 server1 崩 演 ，server2 已 追赶 上 ， 但 server3 的 复制 落后 


假设 我 们 观察 到 的 事件 是 一 样 的 ， 下 面 这 条 命令 会 将 server3 切换 为 server2 的 备 库 。 


server2> CHANGE MASTER TO MASTER_HOST="server2", MASTER LOG FILE="mysql-bin.000009", 
MASTER LOG POS=8078; 
如 果 服 务 器 在 它 月 注 时 已 经 执行 完成 并 记录 了 超过 一 个 事件 ， 会 怎么 样 呢 ? 因 为 
server2 仅仅 读 取 并 执行 到 了 偏 移 位 置 1582， 你 可 能 永远 地 失去 了 一 个 事件 。 但 是 如 果 
老 主 库 的 磁盘 没有 损坏 ， 仍 然 可 以 通过 mysqlbinlog 或 者 从 日 志 服 务 器 的 二 进 制 日 志 
找到 丢失 的 事件 。 


如 果 需 要 从 老 主 库 上 恢复 丢失 的 事件 ， 建 议 在 提升 新 主 库 之 后 且 在 允许 客户 端 连接 之 前 
做 这 件 事情 。 这 样 就 无 须 在 每 台 备 库 上 都 执行 丢失 的 事件 ， 只 需 使 用 复制 来 完成 。 但 如 
村 崩溃 的 老 主 库 完 全 不 可 用 ， 就 不 得 不 等 待 ， 稍 后 再 做 这 项 工作 。 


上 述 流 程 中 一 个 可 调整 的 地 方 是 使 用 可 靠 的 方式 来 存储 二 进 制 日 志 ， 如 SAN 或 分 布 式 
复制 数据 库 设 备 (DRBD)。 即 使 主 库 完全 失效 ， 依 然 能 够 获得 它 的 二 进 制 日 志 。 也 可 以 
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设置 一 个 日 志 服 务 器 ， 把 备 库 指向 它 ， 然 后 让 所 有 备 库 赶 上 主 库 失效 的 点 。 这 使 得 提升 
一 个 备 库 为 新 的 主 库 没 那么 重要 ， 本 质 上 这 和 计划 中 的 提升 是 相同 的 。 我 们 将 在 下 一 章 
进一步 讨论 这 些 存储 选项 。 





[一 一 人 当 提升 一 台 备 库 为 主 库 时 ， 千 万 不 要 将 它 的 服务 器 ID 修改 成 原 主 库 的 服务 器 ID， 
end) 否则 将 不 能 使 用 日 志 服务 器 从 一 个 旧 主 库 来 重 放 日 志 事 件 。 这 也 是 确保 服务 器 1D 
"| 最 好 保持 不 变 的 原因 之 一 。 


10.6.6 在 一 个 主 一 主 配置 中 交换 角色 
+ - 主 复制 拓扑 结构 的 一 个 好 处 就 是 可 以 很 容易 地 切换 主动 和 被 动 的 角色 ， 因 为 其 配置 
是 对 称 的 。 本 小 节 介 绍 如 何 完成 这 种 切换 。 


当 在 主 - 主 配置 下 切换 角色 时 ， 必 须 确保 任何 时 候 只 有 一 个 服务 器 可 以 写 人 。 如 采 两 合 
服务 器 交叉 写 入 ， 可 能 会 导致 写 信 冲突。 换 句 话说， 在 切换 角色 后 ， 原 被 动 服务 器 不 应 
该 接收 到 主动 服务 器 的 任何 二 进 制 日 志 。 可 以 通过 确保 原 被 动 服务 器 的 复制 SQL 线程 在 
该 服务 器 可 写 之 前 已 经 赶 上 主动 服务 器 来 避免 。 


通过 以 下 步骤 切换 服务 器 角色 ， 可 以 避免 更 新 冲突 的 危险 : 


1. 停止 主动 服务 器 上 的 所 有 写 入 。 

2. 在 主动 服务 器 上 执行 SET GLOBAL read onLy=1， 同 时 在 配置 文件 里 也 设置 一 下 
read_onLy， 防 止 重启 后 失效 。 但 记 住 这 不 会 阻止 拥有 超级 权限 的 用 户 更 改 数据 。 如 
果 想 阻止 所 有 人 更 改 数据 ， 可 以 执行 FLUSH TABLES WITH READ LOCK。 如 果 没 有 这 
么 做 ， 你 必须 kill 所 有 的 客户 端 连接 以 保证 没有 长 时 间 运 行 的 语句 或 者 未 提交 的 事 
务 。 

3. 在 主动 服务 器 上 执行 SHOW MASTER STATUS 并 记录 二 进 制 日 志 坐 标 。 

4. 使 用 主动 服务 器 上 的 二 进 制 日 志 坐 标 在 被 动 服务 器 上 执行 SELECT MASTER_POS_ 
WAIT() 。 该 语句 将 阻塞 住 ， 直 到 复制 跟 上 主动 服务 器 。 

5. 在 被 动 服务 器 上 执行 SET GLOBAL read onLy=0， 这 样 就 变换 成 主动 服务 器 。 

6. 修改 应 用 的 配置 ， 使 其 写 入 到 新 的 主动 服务 器 中 。 


可 能 还 需要 做 一 些 额 外 的 工作 ， 包 括 更 改 两 台 服 务 器 的 IP 地 址 ， 这 取决 于 应 用 的 配置 ， 
我 们 将 在 下 一 节 讨论 这 个 话题 。 
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10.7 复制 的 问题 和 解决 方案 


中 断 MySQL 的 复制 并 不 是 件 难事 。 因 为 实现 简单 ， 配 置 相当 容易 ， 但 也 意味 着 有 很 多 


方式 会 导致 复制 停止 ， 陷 入 混乱 并 中 断 。 本 章 描 述 了 一 些 比较 普遍 的 问题 ， 讨 论 如 何 重 
现 这 些 问 题 ， 以 及 当 遇 到 这 些 问 题 时 如 何 解决 或 者 阻止 其 发 生 。 


10.7.1 数据 损坏 或 丢失 的 错误 
由 于 各 种 各 样 的 原因 ，MySQL 的 复制 并 不 能 很 好 地 从 服务 器 月 涡 、 掉 电 、 磁 盘 损 坏 、 
内 存 或 网 络 错误 中 恢复 。 过 到 这 些 问题 时 几乎 可 以 肯定 都 需要 从 某 个 点 开始 重启 复制 。 


大 部 分 由 于 非 正常 关机 后 导致 的 复制 问题 都 是 由 于 没有 把 数据 及 时 地 刷 到 磁盘 。 下 面 是 
意外 关闭 服务 器 时 可 能 会 磁 到 的 情况 。 


主 库 意外 关闭 
如 果 没 有 设置 主 库 的 sync_binlog 选项 ， 就 可 能 在 崩溃 前 设 有 将 最 后 的 几 个 二 进 制 
日 志 事 件 刷新 到 磁盘 中 。 备 库 I/O 线程 因此 也 可 一 直 处 于 读 不 到 尚未 写 人 磁盘 的 事 
件 的 状态 中 。 当 主 库 重 新 启动 时 ， 备 库 将 重 连 到 主 库 并 再 次 尝试 去 读 该 事件 ， 但 主 
库 会 告诉 备 库 没有 这 个 二 进 制 日 志 偏 移 量 。 二 进 制 日 志 转 储 线程 通常 很 快 ， 因 此 这 
种 情况 并 不 经 常 发 生 。 | 
解决 这 个 问题 的 方法 是 指定 备 库 从 下 一 个 二 进 制 日 志 的 开头 读 日 志 。 但 是 一 些 日 志 
事件 将 永久 地 丢失 ， 建 议 使 用 Percona Toolkit 中 的 pt-table-checksum 工具 来 检查 主 

备 一 致 性 ， 以 便于 修复 。 可 以 通过 在 主 库 开 启 sync_binlog 来 避免 事件 丢失 。 

即使 开启 了 sync_binlog, MyISAM 表 的 数据 仍然 可 能 在 崩溃 的 时 候 损 坏 ， 对 于 
InnoDB 事务 ,如果 innodb flush log at trx commit 没 有 设 为 1, 也 可 能 丢失 数据 (但 
数据 不 会 损坏 )。 

备 库 意外 关闭 
当 备 库 在 一 次 非 计 划 中 的 关闭 后 重启 时 ， 会 去 读 master. info 文件 以 找到 上 次 停止 复 
制 的 位 置 。 不 幸 的 是 ， 该 文件 并 没有 同步 写 到 磁盘 ， 文 件 中 存储 的 信息 可 能 是 错误 
的 。 备 库 可 能 会 尝试 重新 执行 一 些 二 进 制 日 志 事 件 ， 这 可 能 会 导致 唯一 索引 错误 。 
除非 能 确定 备 库 在 哪里 停止 (通常 不 太 可 能 ) ， 否 则 唯一 的 办 法 就 是 忽略 那些 错误 。 
Percona Toolkit 中 的 pt-slave-restart 工具 可 以 帮助 完成 这 一 点 。 
如 采 使 用 的 都 是 InnoDB 表 ， 可 以 在 重启 后 观察 MySQL 错误 日 志 。InnoDB 在 恢复 
过 程 中 会 打印 出 它 的 恢复 点 的 二 进 制 日 志 坐 标 。 可 以 使 用 这 个 值 来 决定 备 库 指向 主 
库 的 偏 移 量 。Percona Server 提供 了 一 个 新 的 特性 ， 可 以 在 恢复 的 过 程 中 自动 将 这 些 
信息 提取 出 来 ,并 更 新 master. info 文件 ,从 根本 上 使 得 复制 能 够 协调 好 备 库 上 的 事务 。 
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MySQL 5.5 也 提供 了 一 些 选 项 来 控制 如 何 将 master. info 和 其 他 文件 刷新 到 磁盘 ， 这 
有 助 于 减少 这 些 问 题 。 


除了 由 于 MySQL 非 正常 关闭 导致 的 数据 丢失 外 ， 磁 盘 上 的 二 进 制 日 志 或 中 继 日 志文 件 
损坏 并 不 罕见 。 下 面 是 一 些 更 普遍 的 场景 : 


主 库 上 的 二 进 制 日 志 损 坏 
如 果 主 库 上 的 二 进 制 日 志 损 坏 ， 除 了 忽略 损坏 的 位 置 外 你 别 无 选择 。 可 以 在 主 库 上 
执行 FLUSH LOGS 命令， 这样 主 库 会 开始 一 个 新 的 日 志文 件 ， 然 后 将 备 库 指向 该 文 
件 的 开始 位 置 。 也 可 以 试 着 去 发 现 损坏 区 域 的 结束 位 置 。 茶 些 情况 下 可 以 通过 SET 
GLOBAL SQL SLAVE SKIP COUNTER = 1 来 忽略 一 个 损坏 的 事件 。 如 果 有 多 个 损坏 的 
事件 ， 就 需要 重复 该 步 驻 ， 直 到 跳 过 所 有 损坏 的 事件 。 但 如 果 有 太 多 的 损坏 事件 ， 
这 么 做 可 能 就 没有 意义 了 。 损 坏 的 事件 头 会 阻止 服务 器 找到 下 一 个 事件 。 这 种 情况 下 ， 
可 能 不 得 不 手动 地 去 找到 下 一 个 完好 的 事件 。 

备 库 上 的 中 继 日 志 损 坏 
如 果 主 库 上 的 日 志 是 完好 的 ， 就 可 以 通过 CHANGE MASTER TO 命令 丢弃 并 重新 获取 
损坏 的 事件 。 只 需要 将 备 库 指 向 它 当 前 正在 复制 的 位 置 (Relay Master Log File/ 
Exec Master_Log Pos) 。 这 会 导致 备 库 丢 弈 所 有 在 磁盘 上 的 中 继 日 志 。 就 这 一 点 而 言 ， 
MySQL 5.5 做 了 一 些 改进 ， 它 能 够 在 有 崩溃 后 自动 重新 获取 中 继 日 志 。 

二 进 制 日 志 与 InnoDB 事务 日 志 不 同步 
HEE, InnoDB 可 能 将 一 个 事务 标记 为 已 提交 ， 此 时 该 事务 可 能 还 设 有 记录 
到 二 进 制 日 志 中 。 除 非 是 某 个 备 库 的 中 继 日 志 已 经 保存 ， 否 则 没有 任何 办 法 恢复 丢 
失 的 事务 。 在 MySQL 5.0 版 本 可 以 设置 sync binlog 选项 来 防止 该 问题 ， 对 于 更 早 
的 MySQL 4.1 可 以 设置 sync_binlog 和 safe bintog 选项 。 


当 一 个 二 进 制 日 志 损 坏 时 ， 能 恢复 多 少数 据 取 决 于 损坏 的 类 型 ， 有 几 种 比较 常见 的 类 型 


数据 改变 ， 但 事件 仍 是 有 效 的 SQL 
AW, MySQL 其 至 无 法 察觉 这 种 损坏 。 因 此 最 好 还 是 经 常 检查 备 库 的 数据 是 否 
正确 。 在 MySQL 未 来 的 版 本 中 可 能 会 被 修复 。 

数据 改变 并 且 事 件 是 无 效 的 SQL 
这 种 情况 可 以 通过 mysglbinlog 提取 出 事件 并 看 到 一 些 错乱 的 数据 ， 例 如 : 


事件 。 
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数据 遗漏 并 且 / 或 者 事件 的 长 度 是 错误 的 
这 种 情况 下 ，mysqlbinlog 可 能 会 发 生 错 误 退 出 或 者 直接 月 涡 ， 因 为 它 无 法 读 取 事件 ， 
并 且 找 不 到 下 一 个 事件 的 开始 位 置 。 
某 些 事件 已 经 损坏 或 被 覆盖 ， 或 者 偏 移 量 已 经 改变 并 且 下 一 个 事件 的 起 始 偏 移 量 也 是 错 
误 的 
同样 的 ， 这 种 情况 下 mysqlbinlog 也 起 不 了 多 少 作 用 。 


当 损 坏 非 常 严 重 ， 通 过 mysgqlbinlog 已 经 无 法 获取 日 志 事 件 时 ， 就 不 得 不 进行 一 些 十 六 
进 制 的 编辑 或 者 通过 一 些 烦 琐 的 技术 来 找到 日 志 事 件 的 边界 。 这 通常 并 不 困难 ， 因 为 有 
一 些 可 辨识 的 标记 会 分 荐 事件 。 


如 下 例 所 示 ， 首 先 使 用 mysgqlbinlog 找到 样 例 日 志 的 日 志 事 件 偏 移 量 : 


$ mysqlbinlog mysql-bin.000113 | egrep '^# at ' 
# at 4 

# at 98 

# at 185 

# at 277 

# at 369 

# at 447 


一 个 找到 日 志 偏 移 量 的 比较 简单 的 方法 是 比较 一 下 string 命令 输出 的 偏 移 量 : 


$ strings -n 2 -t d mysql-bin.000113 
1 binpC'G 
25 5.0.38-Ubuntu_Oubuntu1.1- ~ 
99 C'G 
146 std 
156 test 
161 create table testli int) 
186 C'G 
233 std 
243 test 
248 insert into test(a) values(1) 498 
278 C'G 
325 std 
335 test 
340 insert into test(a) values(2) 
370 C'G 
417 std 
427 test 
432 drop table test 
448 D'G 
474 mysql-bin.000114 


有 一 些 可 辨别 的 模式 可 以 帮助 定位 事件 的 开头 ， 注 意 以 '6 结尾 的 字符 串 在 日 志 事 件 开 头 
的 一 个 字 节 后 的 位 置 。 它 们 是 固定 长 度 的 事件 头 的 一 部 分 。 


这 些 值 因 服务 器 而 异 ， 因 此 结果 也 可 能 取决 于 解析 的 日 志 所 在 的 服务 器 。 人 简单 地 分 析 后 
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应 该 能 够 从 二 进 制 日 志 中 找到 这 些 模式 并 找到 下 一 个 完整 的 日 志 事 件 偏 移 量 。 然 后 通过 
mysqlbinlog 的 --start-position 选项 来 跳 过 损坏 的 事件 ， 或 者 使 用 CHANGE MASTER TO 命 
令 的 MASTER LOG POS 参数 。 


10.7.2 使 用 非 事 务 型 表 
如 果 一 切 正常 ， 基 于 语句 的 复制 通常 能 够 很 好 地 处 理 非 事务 型 表 。 但 是 当 对 非 事务 型 表 
的 更 新 发 生 错误 时 ， 例 如 查询 在 完成 前 被 kill， 就 可 能 导致 主 库 和 备 库 的 数据 不 一 致 


例如 ， 假 设 更 新 一 个 MyISAM 表 的 100 行 数据 ， 若 查询 更 新 到 了 其 中 50 条 时 有 人 kill 
该 查询 ， 会 发 生 什么 呢 ? 一 半 的 数据 改变 了 ， 而 另 一 半 则 没有 ， 结 果 是 复制 必然 不 同步 ， 
因为 该 查询 会 在 备 库 重 放 并 更 新 完 100 行 数据 (MySQL 随后 会 在 主 库 上 发 现 查询 引起 
的 错误 ， 而 备 库 上 则 没有 报错 ， 此 后 复制 将 会 发 生 错 误 并 中 断 ) 。 


如 果 使 用 的 是 MyISAM 表 ， 在 关闭 MySQL 之 前 需要 确保 已 经 运行 了 STOP SLAVE, Ail 
服务 器 在 关闭 时 会 kil 所 有 正在 运行 的 查询 (包括 没有 完成 的 更 新 ) 。 事 务 型 存储 引擎 则 
没有 这 个 问题 。 如 果 使 用 的 是 事务 型 表 ， 失 败 的 更 新 会 在 主 库 上 回 滚 并 且 不 会 记录 到 二 
进 制 日 志 中 。 


10.7.3 混合 事务 型 和 非 事务 型 表 
如 果 使 用 的 是 事务 型 存储 引擎 ， 只 有 在 事务 提交 后 才 会 将 查询 记录 到 二 进 制 日 志 中 。 因 
此 如 果 事 务 回 滚 ，MySQL 就 不 会 记录 这 条 查询 ， 也 就 不 会 在 备 库 上 重 放 。 


但 是 如 果 混 合 使 用 事务 型 和 非 事 务 型 表 ， 并 且 发 生 了 一 次 回 深 ，MySQL 能 够 回 秘 事务 
型 表 的 更 新 ， 但 非 事 务 型 表 则 被 永久 地 更 新 了 。 只 要 不 发 生 类 似 查询 中 途 被 kill 这 样 的 
错误 ， 这 就 不 是 问题 : MySQL 此 时 会 记录 该 查询 并 记录 一 条 ROLLBACK 语句 到 日 志 中 。 
结果 是 同样 的 语句 也 在 备 库 执 行 ， 所 有 的 都 很 正常 。 这 样 效率 会 低 一 点 ， 因 为 备 库 需 要 
做 一 些 工作 并 且 最 后 再 把 它们 丢弃 掉 。 但 理论 上 能 够 保证 主 备 的 数据 一 致 。 

目前 看 来 一 切 很 正常 。 但 是 如 果 备 库 发 生死 锁 而 主 库 没有 也 可 能 会 导致 问题 。 事 务 型 表 
的 更 新 会 被 回 深 ， 而 非 事务 型 表 则 无 法 回 深 ， 此 时 备 库 和 主 库 的 数据 是 不 一 致 的 。 
防止 该 问题 的 唯一 办 法 是 避免 混合 使 用 事务 型 和 非 事 务 型 表 。 如 果 遇 到 这 个 问题 ， 唯 一 
的 解决 办 法 是 忽略 错误 ， 并 重新 同步 相关 的 表 。 


基于 行 的 复制 不 会 受 这 个 问题 的 影响 。 因 为 它 记 录 的 是 数据 的 更 改 ， 而 不 是 SQL 语句 。 
如 果 一 条 语句 改变 了 一 个 MyISAM 表 和 一 个 InnoDB 表 的 某 些 行 ， 然 后 主 库 上 发 生 了 一 
次 死 锁 ，InnoDB 表 的 更 新 会 被 回 滚 ， 而 MyISAM 表 的 更 新 仍 会 被 记录 到 日 志 中 并 在 备 
库 重 放 。 
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10.7.4 不 确定 语 铝 

当 使 用 基于 语句 的 复制 模式 时 ， 如 果 通 过 不 确定 的 方式 更 改 数据 可 能 会 导致 主 备 不 一 致 。 
例如 ， 一 条 带 LIMIT 的 UPDATE 语句 更 改 的 数据 取决 于 查找 行 的 顺序 ， 除 非 能 保证 主 库 和 
备 库 上 的 顺序 相同 。 例 如 ， 若 行 根据 主键 排序 ， 一 条 查询 可 能 在 主 库 和 备 库 上 更 新 不 同 
的 行 ， 这 些 问 题 非常 微妙 并 且 很 难 注 意 到 。 所 以 一 些 人 禁止 对 那些 会 更 新 数据 的 语句 使 
用 LIMIT。 另 外 一 种 不 确定 的 行为 是 在 一 个 拥有 多 个 唯一 索引 的 表 上 使 用 REPLACE 或 者 
INSERT IGNORE i241 








另外 还 要 注意 那些 涉及 INFORMATION SCHEMA 表 的 语句 。 它 们 很 容易 在 主 库 和 备 库 上 产 
生 不 一 致 ， 其 结果 也 会 不 同 。 最 后 ， 需 要 注意 许多 系统 变量 ,例如 @@server_id 和 @@ 
hostname， 在 MySQL 5.1 之 前 无 法 正确 地 复制 。 


基于 行 的 复制 则 没有 上 述 限 制 。 


10.7.5 主 库 和 备 库 这 使 用 不 同 的 存储 引擎 

正如 本 章 之 前 提 到 的 ， 在 备 库 上 使 用 不 同 的 存储 引擎 ， 有 了 时候 可 以 带 来 好 处 。 但 是 在 一 
些 场景 下 ， 当 使 用 基于 语句 的 复制 方式 时 ， 如 果 备 库 使 用 了 不 同 的 存储 引擎 ， 则 可 能 造 
成 一 条 查询 在 主 库 和 备 库 上 的 执行 结果 不 同 ， 例 如 不 确定 语句 (如 前 一 小 节 提 到 的 ) 在 
主 备 库 使 用 不 同 的 存储 引擎 时 更 容易 导致 问题 


如 果 发 现 主 库 和 备 库 的 某 些 表 已 经 不 同步 ， 除 了 检查 更 新 这 些 表 的 查询 外 ， 还 需要 检查 
两 台 服 务 器 上 使 用 的 存储 引擎 是 否 相同 。 


10.7.6 备 库 发 生 数 据 改变 
基于 语句 的 复制 方式 前 提 是 确保 备 库 上 有 和 主 库 相 同 的 数据 ， 因 此 不 应 该 允许 对 备 库 数 
据 的 任何 更 改 (比较 好 的 办 法 是 设置 read only 选项 ) 。 假 设 有 如 下 语句 : 

mysql> INSERT INTO table1 SELECT * FROM table2; 
如 果 备 库 上 table2 的 数据 和 主 库 上 不 同 ， 该 语句 会 导致 tablel 的 数据 也 会 不 一 致 。 换 
名 话说， 数据 不 一 致 可 能 会 在 表 之 间 传 播 。 不 仅仅 是 INSERT...... SELECT 查询 ， 所 有 类 
型 的 查询 都 可 能 发 生 。 有 两 种 可 能 的 结果 : 备 库 上 发 生 重 复 索 引 键 冲突 错误 或 者 根本 不 
提示 任何 错误 。 如 果 能 报告 错误 还 好 ， 起 码 能 够 提示 你 主 备 数 据 已 经 不 一 致 。 无 法 察觉 
的 不 一 致 可 能 会 悄 无 声息 地 导致 各 种 严重 的 问题 。 


唯一 的 解决 办 法 就 是 重新 从 主 库 同步 数据 ， 
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10.7.7 不 唯一 的 服务 器 ID 

这 种 问题 更 加 难以 捉摸 。 如 果 不 小 心 为 两 台 备 库 设置 了 相同 的 服务 器 ID ， 看 起 来 似乎 设 
有 什么 问题 ， 但 如 果 查 看 错误 日 志 ， 或 者 使 用 innotop 查看 主 库 ， 可 能 会 看 到 一 些 古 怪 
的 信息 。 


在 主 库 上 ， 会 发 现 两 台 备 库 中 只 有 一 台 连 接 到 主 库 (通常 情况 下 所 有 的 备 库 都 会 建立 连 
接 以 等 待 随时 进行 复制 )。 在 备 库 的 错误 日 志 中 ， 则 会 发 现 反复 的 重 连 和 连接 断 开 信息 ， 
但 不 会 提 及 被 错误 配置 的 服务 器 ID. 


MySQL 可 能 会 缓慢 地 进行 正确 的 复制 ， 也 可 能 无 法 进行 正确 复制 ， 这 取决 于 MySQL 的 
版 本 , 给 定 的 备 库 可 能 会 丢失 二 进 制 日 志 事 件 , 或 者 重复 执行 事件 , 导致 重复 键 错误 (或 
者 不 可 见 的 数据 损坏 )。 也 可 能 因为 备 库 的 互相 竞争 造成 主 库 的 负载 升 高 。 如 果 备 库 竞 
争 非常 激烈 ， 会 导致 错误 日 志 在 很 短 的 时 间 内 急剧 增 大 。 


唯一 的 解决 办 法 是 小 心 设置 备 库 的 服务 器 ID。 一 个 比较 好 的 办 法 是 创建 一 个 主 库 到 备 库 


的 服务 器 ID 映射 表 , 这 样 就 可 以 跟踪 到 备 库 的 ID 信息 “"。 如 果 备 库 全 在 一 个 子 网 络 内 ， 
可 以 将 每 台 机 器 IP 的 后 八 位 作为 唯一 ID。 


10.7.8 未 定义 的 服务 器 ID 
如 果 没 有 在 my.cnf 里 定义 服务 器 ID ， 可 以 通过 CHANGE MASTER TO 来 设置 备 库 ,但 却 无 
法 启动 复制 : 


mysql> START SLAVE; 
ERROR 1200 (HY000): The server is not configured as slave; fix in config file or with 
CHANGE MASTER TO 


这 个 报错 可 能 会 让 人 困惑 ， 因 为 刚刚 执行 CHANGE MASTER T0 设 置 了 备 库 ， 并 且 通 过 
SHOW MASTER STATUS 也 确认 了 。 执 行 SELECT @@server_ id 也 可 以 获得 一 个 值 ， 但 这 只 
是 默认 值 ， 必 须 为 备 库 显 式 地 设置 服务 器 ID. 


10.7.9 对 未 复制 数据 的 依赖 性 


如 果 在 主 库 上 有 备 库 不 存在 的 数据 库 或 表 ， 复 制 会 很 容易 意外 中 断 ， 反 之 亦 然 。 假 设 主 
库 上 有 一 个 备 库 不 存在 的 数据 库 ， 命 名 为 scratch。 如 果 在 主 库 上 发 生 对 该 数据 库 中 表 
的 更 新 ， 备 库 会 在 尝试 重 放 这 些 更 新 时 中 断 。 同 样 的 ， 如 果 在 主 库 上 创建 一 个 备 库 上 已 
存在 的 表 ， 复 制 也 可 能 中 断 。 


没有 什么 好 的 解决 办 法 ， 唯 一 的 办 法 就 是 避免 在 主 库 上 创建 备 库 上 没有 的 表 。 


注 19 : 也 许 你 想 把 它 保 存在 服务 器 中 ， 这 不 完全 是 玩笑 ， 可 以 给 ID 列 添 加 一 个 唯一 索引 。 
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这 样 的 表 是 如 何 创 建 的 呢 ? 有 很 多 可 能 的 方式 ， 其 中 一 些 可 能 更 难 防范 。 例 如 ， 假 设 先 
在 备 库 上 创建 一 个 数据 库 scratch， 该 数据 库 在 主 库 上 不 存在 ， 然 后 因为 某 些 原因 切换 
了 主 备 。 当 完成 这 些 后 ， 可 能 忘记 了 移 除 scratch 数据 库 以 及 它 的 权限 。 这 时 候 一 些 人 
就 可 以 连接 到 该 数据 库 并 执行 一 些 查询 ， 或 者 一 些 定期 的 任务 会 发 现 这 些 表 ， 并 在 每 个 
表 上 执行 OPTIMIZE TABLE 命令 。 


当 提 升 备 库 为 主 库 时 ， 或 者 决定 如 何 配置 备 库 时 ， 需 要 注意 这 一 点 。 任何 导致 主 备 不 同 
的 行为 都 会 产生 潜在 的 问题 。 


10.7.10 丢失 的 临时 表 

临时 表 在 某 些 时 候 比较 有 用 ， 但 不 幸 的 是 ， 它 与 基于 语句 的 复制 方式 是 不 相 容 的 。 如 果 
备 库 崩 溃 或 者 正常 关闭 ， 任 何 复制 线程 拥有 的 临时 表 都 会 丢失 。 重 启 备 库 后 ， 所 有 依赖 
于 该 临时 表 的 语句 都 会 失败 。 


当 基于 语句 进行 复制 时 ， 在 主 库 上 并 没有 安全 使 用 临时 表 的 方法 。 许 多 人 确实 很 喜欢 临 
时 表 ， 所 以 很 难 去 说 服 他 们 ， 但 这 是 不 可 否认 的 =”。 不 管 它们 的 存在 多 么 短暂 ， 都 会 使 
得 备 库 的 启动 和 停止 以 及 崩 省 恢复 变 得 困难 ， 即 使 是 在 一 个 事务 内 使 用 也 一 样 。( 如 果 
在 备 库 使 用 临时 表 可 能 问题 会 少 些 ， 但 如 果 备 库 本 身 也 是 一 个 主 库 ， 问 题 依然 存 在 。) 


如 果 和 甸 库 重启 后 复制 因 找 不 到 临时 表 而 停止 ， 可 能 需要 做 以 下 一 些 事 情 : 可 以 直接 跳 过 
错误 ,或 者 手动 地 创建 一 个 名 字 和 结构 相同 的 表 来 代替 消失 的 临时 表 。 不 管用 什么 办 法 ， 
如 有 果 写 入 查询 依赖 于 临时 表 ， 都 可 能 造成 数据 不 一 致 。 


避免 使 用 临时 表 没 有 看 起 来 那么 难 ， 临 时 表 主 要 有 两 个 比较 有 用 的 特性 : 


。 只 对 创建 临时 表 的 连接 可 见 。 所 以 不 会 和 其 他 拥有 相同 名 字 临 时 表 的 连接 起 冲突 。 
© 随 着 连接 关闭 而 消失 ， 所 以 无 须 显 式 地 移 除 它 们 。 


可 以 保留 一 个 专用 的 数据 库 , 在 其 中 创建 持久 表 , 把 它们 作为 伪 临 时 表 , 以 模拟 这 些 特性 。 
只 需要 为 它们 选择 一 个 唯一 的 名 字 。 还 好 这 很 容易 做 到 : 简单 地 将 连接 ID 拼接 到 表 名 之 
后 。 例 如 ， 之 前 创建 临时 表 的 语句 为 : CREATE TEMPORARY TABLE top_users(.,,.)， 现 在 
则 可 以 执行 CREATE TABLE temp.top_users 1234(...)， 其 中 1234 是 函数 CONNECTION 
ID ( ) 的 返回 值 。 当 应 用 不 再 使 用 该 伪 临 时 表 后 ， 可 以 将 其 删除 或 使 用 一 个 清理 线程 
来 将 其 移 除 。 表 名 中 使 用 连接 ID 可 以 用 于 确定 哪些 表 不 再 被 使 用 一 一 可 以 通过 SHOW 
PROCESSLIST 命令 来 获得 活跃 连接 列表 ， 并 将 其 与 表 名 中 的 连接 ID HALLER”, 





注 20 : 我 们 已 经 有 人 尝试 各 种 方法 来 解决 这 个 问题 ， 但 对 于 基于 语句 的 复制 并 没有 安全 的 临时 表 创 建 方 
法 。 起 码 一 段 时 期 是 这 样 ， 不 管 你 如 何 认为 ， 起 码 我 们 已 经 证 明了 这 是 不 可 行 的 。 

注 21 : pit-find 一 一 另 一 个 Percona Toolkit 工具 一 一 通过 --connection-id 和 --server-id 选项 能 够 轻易 地 移 除 伪 
临时 表 。 
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使 用 实体 表 而 非 临 时 表 还 有 别 的 好 处 。 例 如 ， 能 够 帮助 你 更 容易 调试 应 用 程序 ， 因 为 可 
以 通过 别 的 连接 来 查看 应 用 正在 维护 的 数据 。 如 果 使 用 的 是 临时 表 ， 可 能 就 没 这 么 容易 
做 到 。 | / 

但 是 实体 表 可 能 会 比 临时 表 多 一 些 开销 ， 例 如 创建 会 更 慢 ， 因 为 为 这 些 表 分 配 的 frm X 
件 需 要 刷新 到 磁盘 。 可 以 通过 禁止 sync frm 选项 来 加 速 ， 但 这 可 能 会 导致 淤 在 的 风险 。 
如 果 确 实 需要 使 用 临时 表 ， 也 应 该 在 关闭 备 库 前 确保 Slave_open_temp_ tables 状态 变量 


值 为 0。 如 果 不 是 0， 在 重启 备 库 后 就 可 能 会 出 现 问 题 。 合 适 的 流程 是 执行 STO SLAVE, 
检查 变量 ， 然 后 再 关闭 备 库 。 如 果 在 停止 复制 前 检查 变量 ， 可 能 会 发 生 竞 争 条 件 的 风险 。 


10.7.11 不 复制 所 有 的 更 新 
如 果 错 误 地 使 用 SET SQL LOG BIN=0 或 者 没有 理解 过 着 规则 ， 备 库 可 能 会 丢失 主 库 上 已 
经 发 生 的 更 新 。 有 时 候 希 望 利 用 此 特性 来 做 归档 ， 但 常常 会 导致 意外 并 出 现 不 好 的 结果 。 


例如 , 假设 设置 了 replicate do db 规则 , 把 sakila 数据 库 的 数据 复制 到 某 一 台 备 库 上 。 
如 果 在 主 库 上 执行 如 下 语句 ， 会 导致 主 备 数据 不 一 致 : 


mysql> USE test; 
mysql> UPDATE sakila.actor ... 


其 他 类 型 的 语句 其 至 会 因为 没有 复制 依赖 导致 备 库 复制 抛 出 错误 而 失败 。 


10.7.12 InnoDB 加 锁 读 引起 的 锁 争 用 

正常 情况 下 ，InnoDB 的 读 操 作 是 非 阻 塞 的 ， 但 在 某 些 情况 下 需要 加 锁 。 特 别 是 在 使 用 
基于 语句 的 复制 方式 时 ， 执 行 INSERT. . .SELECT 操作 会 锁定 源 表 上 的 所 有 行 。MySQL 
需要 加 锁 以 确保 该 语句 的 执行 结果 在 主 库 和 备 库 上 是 一 致 的 。 实 际 上 ， 加 锁 导 致 主 库 上 
的 语句 串 行 化 ， 以 确保 和 备 库 上 执行 的 方式 相符 。 


这 种 设计 可 能 导致 锁 范 争 、 阻 塞 ， 以 及 锁 等 待 超 时 等 情况 。 一 种 缓解 的 办 法 就 是 避免 让 
事务 开启 太 久 以 减少 阻塞 。 可 以 在 主 库 上 尽快 地 提交 事务 以 释放 锁 。 


把 大 命令 拆 分 成 小 命令 ， 使 其 尽 可 能 简短 。 这 也 是 一 种 减少 锁 竞争 的 有 效 方法 。 即 使 有 
时 很 难 做 到 ， 但 也 是 值得 的 (使 用 Percona Toolkit 中 的 pt-archiver 工具 会 很 简单 ) 。 


另 一 种 方法 是 替换 掉 INSERT. , .SELECT 语句 ， 在 主 库 上 先 执行 SELECT INTO OUTFILE, 


再 执行 LOAD DATA INFILE。 这 种 方法 更 快 ， 并 且 不 需要 加 锁 。 这 种 方法 很 特殊 ， 但 有 时 


还 是 有 用 的 。 最 大 的 问题 是 为 输出 文件 选择 一 个 唯一 的 名 字 ， 并 在 完成 后 清理 掉 文件 。 
可 以 通过 之 前 讨论 过 的 CONNECTION_ID() 来 保证 文件 名 的 唯一 性 ， 并 且 可 以 使 用 定时 任 
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% (UNIX 的 crontab, Windows 平台 的 计划 任务 ) 在 连接 不 再 使 用 这 些 文件 后 进行 自动 
清理 。 


也 可 以 尝试 关闭 上 面 的 这 种 锁 机 制 ， 而 不 是 使 用 上 面 的 变通 方法 。 有 一 种 方法 可 以 做 到 ， 
但 在 大 多 数 场 景 下 并 不 是 好 办 法 ， 备 库 可 能 会 在 不 知 不 觉 间 就 失去 和 主 库 的 数据 同步 。 
这 也 会 导致 在 做 恢复 时 二 进 制 日 志 变 得 蹇 无 用 处 。 但 如 果 确 实 觉 得 这 么 做 的 利 大 于 整 ， 
可 以 使 用 下 面 的 办 法 来 关闭 这 种 锁 机 人 制 : 

# THIS IS NOT SAFE! 

innodb locks_unsafe_for_binlog = 1 
这 使 得 查询 的 结果 所 依赖 的 数据 不 再 加 锁 。 如 果 第 二 条 查询 修改 了 数据 并 在 第 一 条 查询 
之 前 先 提 交 。 在 主 库 和 备 库 上 执行 这 两 条 语句 的 结果 可 能 不 相同 。 对 于 复制 和 基于 时 间 
点 的 恢复 都 是 如 此 。 


为 了 了 解锁 定 读 取 是 如 何 防 止 混乱 的 ， 假 设 有 两 张 表 : 一 个 没有 数据 ， 另 一 个 只 有 一 行 
数据 ， 值 为 99。 有 两 个 事务 更 新 数据 。 事 务 1 将 第 二 张 表 的 数据 插入 到 第 一 张 表 ， 事 务 
2 更 新 第 二 张 表 〈 源 表 ) ， 如 图 10-16 MR. 


© 初始 状态 
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务 : SET = 100 昌 d 
使 用 排他 锁 执 行 
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图 10-16: 两 个 事务 更 新 数据 ， 使 用 共享 锁 串 行 化 更 新 
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第 二 步 非 常 重要 ， 事 务 2 尝试 去 更 新 源 表 ， 这 需要 在 更 新 的 行 上 加 排他 锁 ( 写 锁 )。 排 
他 锁 与 其 他 锁 是 不 相 容 的 ， 包 括 事务 1 在 行 记录 上 加 的 共享 锁 。 因 此 事务 2 需要 等 待 直 
到 事务 1 完成 。 事 务 按照 其 提交 的 顺序 在 二 进 制 日 志 中 记录 ， 所 以 在 备 库 重 放 这 些 事务 
时 产生 相同 的 结果 。 


但 从 另 一 方面 来 说 ， 如 果 事 务 1 没有 在 读 取 的 行 上 加 共享 锁 ， 就 无 法 保证 了 。 图 10-17 
显示 了 在 没有 锁 的 情况 下 可 能 的 事件 序列 。 


如 果 没 有 加 锁 ， 记 录 在 日 志 中 的 事务 顺序 在 主 备 上 可 能 会 产生 不 同 的 结果 。MYySQL 会 
先 记录 事务 2， 这 会 影响 到 事务 1 在 备 库 上 的 结果 ， 而 主 库 上 则 不 会 发 生 ， 从 而 导致 了 
主 备 的 数据 不 一 致 。 


Binlog 


O #51 
无 锁 执 行 插入 /查询 : 


© 事务 2 
执行 并 提交 





图 10-17: 两 个 事务 更 新 数据 ， 但 未 使 用 共享 锁 来 串 行 化 更 新 


我 们 强烈 建议 在 大 多 数 情 况 下 将 innodb_locks_unsafe_for_binlog 的 值 设置 为 0。 基于 
行 的 复制 由 于 记录 了 数据 的 变化 而 非 语句 ， 因 此 不 会 存在 这 个 问题 。 


10.7.13 在 主 一 主 复制 结构 中 写 入 两 台 主 库 

试图 向 两 台 主 库 写 人 并 不 是 一 个 好 主意 。 如 果 同 时 还 希望 安全 地 写 和 两 台 主 库 ， 会 磁 到 
很 多 问题 ， 有 些 问 题 可 以 解决 ， 有 些 则 很 难 。 一 个 专业 人 员 可 能 需要 经 历 大量 的 教训 才 
能 明白 其 中 的 不 同 。 
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在 MySQL 5.0 中 ， 有 两 个 变量 可 以 用 于 帮助 解决 AUTO_INCREMENT 自 增 主键 冲突 的 问题 : 
auto_increment_increment 和 auto increment offset。 可 以 通过 设置 这 两 个 变量 来 错 
开 主 库 和 备 库 生成 的 数字 ， 这 样 可 以 避免 自 增 列 的 冲突 。 


但 是 这 并 不 能 解决 所 有 由 于 同时 写 入 两 台 主 库 所 带 来 的 问题 ， 自 增 问题 只 是 其 中 的 一 小 
部 分 。 而 且 这 种 做 法 也 带 来 了 一 些 新 的 问题 : 


© 很 难 在 复制 拓扑 间 做 故障 转移 。 

。 ”由 于 在 数字 之 间 出 现 间隙 ， 会 引起 键 空间 的 浪费 。 

。 只 有 在 使 用 了 AUTO_INCREMENT 主键 的 时 候 才 有 用 。 有 时 候 使 用 AUTO_ INCREMENT 列 
作为 主键 并 不 总 是 好 主意 。 


你 也 可 以 自己 来 生成 不 冲突 的 主键 值 。 一 种 办 法 是 创建 一 个 多 个 列 的 主键 ， 第 一 列 使 用 
服务 器 ID 值 。 这 种 办 法 很 好 ， 但 却 使 得 主键 的 值 变 得 更 大 ， 会 对 InnoDB 二 级 索引 键 值 
产生 多 重 影响 。 


也 可 以 使 用 只 有 一 列 的 主键 ,在 主键 的 高 字 市 位 存储 服务 器 ID。 简 单 的 左 移 位 (除法 ) 
和 加 法 就 可 以 实现 。 例 如 ， 使 用 的 是 无 符号 BIGINT (64 位 ) 的 高 8 位 来 保存 服务 器 ID, 
可 以 按照 如 下 方法 在 服务 器 15 上 插入 值 11 : 


mysql> INSERT INTO test(pk col, ...) VALUES( (15 << 56) + 11, ...)3 
如 果 想 把 结果 转换 为 二 进 制 ， 并 将 其 填充 为 64 位 ， 其 效果 显而易见 


mysql> SELECT LPAD(CONV(pk_col, 10, 2), 64, '0') FROM test; 


该 方法 的 缺点 是 需要 额外 的 方式 来 产生 键 值 ， 因 为 AUTO_INCREMENT 无 法 做 到 这 一 点 。 不 
要 在 INSERT 语句 中 将 常量 15 替换 为 @@server id， 因为 这 可 能 在 备 库 产 生 不 同 的 结果 。 


还 可 以 使 用 MD5() 或 UUID() 等 函数 来 获取 伪 随 机 数 ， 但 这 样 做 性 能 可 能 会 很 差 ， 因 为 它 
们 产生 的 值 较 大 ， 并 且 本 质 上 是 随机 的 ， 这 尤其 会 影响 到 InnoDB (除非 是 在 应 用 中 产 
生 值 ， 否 则 不 要 使 用 UUID()， 因 为 基于 语句 的 复制 模式 下 UUID() 不 能 正确 复制 )。 


这 个 问题 很 难 解决 ， 我 们 通常 推荐 重 构 应 用 程序 ， 以 保证 只 有 一 个 主 库 是 可 写 的 。 谁 能 


想得到 呢 ? 


10.7 复制 的 问题 和 解决 方案 | 487 


507 


10.7.14 过 大 的 复制 延迟 

复制 延迟 是 一 个 很 普遍 的 问题 。 不 管 怎么 样 ， 最 好 在 设计 应 用 程序 时 能 够 让 其 容忍 备 库 
出 现 延 迟 。 如 果 系 统 在 备 库 出 现 延 迟 时 就 无 法 很 好 地 工作 ， 和 那么 应 用 程序 也 许 就 不 应 该 
用 到 复制 。 但 是 也 有 一 些 办 法 可 以 让 备 库 跟 上 主 库 。 


MySQL 单线 程 复制 的 设计 导致 备 库 的 效率 相当 低下 。 即 使 备 库 有 很 多 磁盘 、CPU 或 者 
内 存 , 也 会 很 容易 落后 于 主 库 。 因 为 备 库 的 单线 程 通常 只 会 有 效 地 使 用 一 个 CPU 和 磁盘 。 
而 事实 上 ， 备 库 通常 都 会 和 主 库 使 用 相同 配置 的 机 器 。 


备 库 上 的 锁 同样 也 是 问题 。 其 他 在 备 库 运行 的 查询 可 能 会 阻塞 住 复制 线程 。 因 为 复制 是 
单线 程 的 ， 复 制 线程 在 等 待 时 将 无 法 做 别 的 事情 。 


复制 一 般 有 两 种 产生 延迟 的 方式 : 突然 产生 延迟 然后 再 跟 上 ， 或 者 稳定 的 延迟 增 大 。 前 
一 种 通常 是 由 于 一 条 运行 很 长 时 间 的 查询 导致 的 ， 而 后 者 即使 在 没有 长 时 间 运 行 的 查询 
时 也 会 出 现 。 


不 幸 的 是 ， 目 前 我 们 设 那么 容易 确定 备 库 是 否 接近 其 容量 上 限 。 正 如 之 前 提 到 的 。 如 果 
负载 总 是 保持 均匀 的 ， 备 库 在 负载 达到 99% 时 和 其 负载 在 10% 的 时 候 表现 的 性 能 相同 ， 
但 一 旦 达到 100% 时 就 会 突然 开始 产生 延迟 。 但 实际 上 负载 不 太 可 能 很 稳定 ， 所 以 当 备 
库 接 近 写 容量 时 ， 就 可 能 在 尖峰 负载 时 看 到 复制 延迟 的 增加 。 


当 备 库 无 法 跟 上 时 ， 可 以 记录 备 库 上 的 查询 并 使 用 一 个 日 志 分 析 工 具 找 出 哪里 慢 了 。 不 
要 依赖 于 自己 的 直觉 ， 也 不 要 基于 查询 在 主 库 上 的 查询 性 能 进行 判断 ， 因 为 主 库 和 备 库 
性 能 特征 很 不 相同 。 最 好 的 分 析 办 法 是 暂时 在 备 库 上 打开 慢 查 询 日 志 记 录 ， 然 后 使 用 第 
3 章 讨论 的 pt-query-digest 工具 来 分 析 。 如 果 打 开 了 log_slow slave statements 选项 ， 
在 标准 的 MySQL 慢 查 询 日 志 能 够 记录 MySQL 5.1 及 更 新 的 版 本 中 复制 线程 执行 的 语句 ， 
这 样 就 可 以 找到 在 复制 时 哪些 语句 执行 慢 了 。Percona Server 和 MariaDB 允许 开启 或 林 
止 该 选项 而 无 须 重启 服务 器 。 


除了 购买 更 快 的 磁盘 和 CPU (固态 硬盘 能 够 提供 极 大 的 帮助 ， 详 细 参 阅 第 9 章 )， 备 库 
没有 太 多 的 调 优 空间 。 大 部 分 选项 都 是 禁止 某 些 额 外 的 工作 以 减少 备 库 的 负载 。 一 个 简 
单 的 办 法 是 配置 InnoDB， 使 其 不 要 那么 频繁 地 刷新 磁盘 ， 这 样 事务 会 提交 得 更 快 些 。 
可 以 通过 设置 innodb flush log at trx commit 的 值 为 2 来 实现 。 还 可 以 在 备 库 上 禁 
止 二 进 制 日 志 记 录 ， 把 innodb locks unsafe for_ bintLog 设置 为 1， 并 把 MyISAM 的 
delay key write 设置 为 ALL。 但 是 这 些 设置 以 牺牲 安全 换取 速度 。 如 果 需 要 将 备 库 提 升 
为 主 库 ， 记 得 把 这 些 选项 设置 回 安 全 的 值 。 | 
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不 要 重复 与 操作 中 代价 较 高 的 部 分 

重 构 应 用 程序 并 且 /或 者 优化 查询 通常 是 最 好 的 保持 备 库 同 步 的 办 法 。 尝 试 去 最 小 化 系 
统 中 重复 的 工作 。 任 何 主 库 上 昂贵 的 写 操作 都 会 在 每 一 个 备 库 上 重 放 。 如 果 可 以 把 工作 
转移 到 备 库 , 那么 就 只 有 一 台 备 库 需 要 执行 , 然后 我 们 可 以 把 写 的 结果 回 传 到 主 库 ,例如 ， 
通过 执行 LOAD DATA INFILE。 


这 里 有 个 例子 ,假设 有 一 个 大 表 ， 需 要 汇总 到 一 个 小 表 中 用 于 日 常 的 操作 : 


mysql> REPLACE INTO main_db.summary table (col1, col2, ...) 
-> SELECT coli, sum(col2, ...) 
-> FROM main_db.enormous table GROUP BY col1; 


， 如果 在 主 库 上 执行 查询 ， 每 个 备 库 将 同样 需要 执行 庞大 的 GROUP BY 查询 。 当 进行 太 多 这 
样 的 操作 时 ， 备 库 将 无 法 跟 上 。 把 这 些 工作 转移 到 一 台 备 库 上 也 许 会 有 帮助 。 在 备 库 上 
创建 一 个 特别 保留 的 数据 库 ， 用 于 避免 和 从 主 库 上 复制 的 数据 产生 冲突 。 可 以 执行 以 下 
查询 : 

mysql> REPLACE INTO summary db .summary table (coli, col2, ...) 


-> SELECT coli, sum(col2, ...) 
-> FROM main_db.enormous_table GROUP BY col1; 


现在 可 以 执行 SELECT INTO OUTFILE， 然 后 再 执行 LOAD DATA INFILE， 将 结果 集 加 载 到 
主 库 中 。 现 在 重复 工作 被 简化 为 LOAD DATA INFILE 操作 。 如 果 有 N 个 备 库 ， 就 节约 了 
N-1 次 庞大 的 GROUP BY 操作 。 


该 策略 的 问题 是 需要 处 理 陈旧 数据 。 有 时 候 从 备 库 读 取 的 数据 和 写 入 主 库 的 数据 很 难保 
持 一 致 ( 下 一 章 我 们 会 详细 描述 这 个 问题 )。 如 果 难 以 在 备 库 上 读 取 数 据 ， 依 然 能 够 简 
化 并 节省 库 备 工作 。 如 果 分 离 查 询 的 REPLACE 和 SELECT 部 分 ， 就 可 以 把 结果 返回 给 应 用 
程序 ， 然 后 将 其 插入 到 主 库 中 。 首 先 ， 在 主 库 执行 如 下 查询 : 


mysql> SELECT col1, sum(col2, ...) FROM main_db.enormous table GROUP BY col1; 
然后 为 结果 集 的 每 一 行 重复 执行 如 下 语句 ， 将 结果 插入 到 汇总 表 中 : 
mysql> REPLACE INTO main_db.summary table (coli, col2, ...) VALUES (?, ?, ...); 


这 种 方法 再 次 避免 了 在 备 库 上 执行 查询 中 的 GROUP BY 部 分 。 将 SELECT 和 REPLACE 分 离 
后 意味 着 查询 的 SELECT 操作 不 会 在 每 一 台 备 库 上 重 放 。 


这 种 通用 的 策略 一 一 节约 了 备 库 上 昂贵 的 写 人 操作 部 分 一 一 在 很 多 情况 下 很 有 帮助 计 
算 查 询 的 结果 代价 很 昂贵 ， 但 一 旦 计算 出 来 后 ， 处 理 就 很 容易 。 
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在 复制 之 外 并 行 写 入 

男 一 种 避免 备 库 严重 延迟 的 办 法 是 绕 过 复制 。 任 何在 主 库 的 写 入 操作 必须 在 备 库 串 行 化 。 
因此 有 理由 认为 “ 串 行 化 写 人 ”不 能 充分 利用 资源 。 所 有 写 操作 都 应 该 从 主 库 传递 到 各 
库 吗 ? 如 何 把 备 库 有 限 的 串 行 写 人 容量 留 给 那些 真正 需要 通过 复制 进行 的 写 和 ? 


这 种 考虑 有 助 于 对 写 入 进行 区 分 。 特 别 是 ， 如 果 能 确定 一 些 写 入 可 以 轻易 地 在 复制 之 外 
执行 ， 就 可 以 并 行 化 这 些 操作 以 利用 备 库 的 写 人 容量 。 


一 个 很 好 的 例子 是 之 前 讨论 过 的 数据 归档 。OLTP 归档 需求 通常 是 简单 的 单行 操作 。 如 
只 是 把 不 需要 的 记录 从 一 个 表 移 到 另 一 个 表 ， 就 没有 必要 将 这 些 写 人 复制 到 备 库 。 可 
以 禁止 归档 查询 记录 到 二 进 制 日 志 中 ， 然 后 分 别 在 主 库 和 备 库 上 单独 执行 这 些 归 档 查询 。 


目 己 复制 数据 到 另外 一 台 有 服务器， 而 不 古 通过 复制 ， 这 听 起 来 有 些 疯狂 ， 但 却 对 一 些 应 
用 有 意义 ， 特 别 是 如 果 应 用 是 某 些 表 的 唯一 更 新 源 。 复 制 的 瓶颈 通常 集中 在 小 部 分 表 上 。 
如 果 能 在 复制 之 外 单独 处 理 这 些 表 ， 就 能 够 显著 地 加 快 复制 。 


为 复制 线程 预 取 缓存 

如 果 有 正确 的 工作 负载 ， 就 能 通过 预先 将 数据 读 和 人 内存 中 ， 以 受益 于 在 备 库 上 的 并 行 IO 
所 带 来 的 好 处 。 这 种 方式 并 不 广为人知 。 大 多 数 人 不 会 使 用 ， 因 为 除非 有 正确 的 工作 负 
载 特性 和 硬件 配置 ， 否 则 可 能 没有 任何 用 处 。 我 们 刚刚 讨论 过 的 其 他 几 种 变通 方式 通常 
是 更 好 的 选择 ， 并 且 有 更 多 的 方法 来 应 用 它们 。 但 是 我 们 知道 也 有 小 部 分 应 用 会 受益 于 
数据 预 取 。 


有 两 种 可 行 的 实现 方法 。 一 种 是 通过 程序 实现 ， 略 微 比 备 库 SQL 线程 提前 读 取 中 继 日 志 
并 将 其 转换 为 SELECT 语句 执行 。 这 会 使 得 服务 器 将 数据 从 磁盘 加 载 到 内 存 中 ， 这 样 当 
SQL 线程 执行 到 相应 的 语句 时 ， 就 无 须 从 磁盘 读 取 数据 。 事 实 上 ，SELECT 语句 可 以 并 行 
地 执行 ， 所 以 可 以 加 速 SQL 线程 的 串 行 IO。 当 一 条 语句 正在 执行 时 ， 下 一 条 语句 需要 
的 数据 也 正在 从 磁盘 加 载 到 内 存 中 。 


如 果 满足 下 面 这 些 条 件 ， 预 取 可 能 会 有 效 : 


。 复制 SQL 线程 是 IO 密集 型 的 ， 但 备 库 服务 器 并 不 是 IO 密集 型 的 。 一 个 完全 的 MO 
密集 型 服务 器 不 会 受益 于 预 取 ， 因 为 它 没有 多 余 的 磁盘 性 能 来 提供 预 取 。 

© 备 库 有 多 个 硬盘 驱动 器 ， 也 许 8 个 或 者 更 多 。 

。 使 用 的 是 InnoDB 引擎 ， 并 且 工 作 集 远 不 能 完全 加 载 到 内 存 中 。 


一 个 受益 于 预 读 取 的 例子 是 随机 单行 UPDATE 语句 ， 这 些 语句 通常 在 主 库 上 高 并 发 执行 。 
DELETE 语句 也 可 能 受益 于 这 种 方法 ,但 INSERT 语句 则 不 太 可 能 会 一 一 尤其 是 当 顺 序 插 
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和 信 时 一 一 因为 前 一 次 插入 已 经 使 索引 “ 预 热 ”了 。 


如 采 表 上 有 很 多 索引 ， 同 样 无 法 预 取 所 有 将 要 被 修改 的 数据 。UPDATE 语句 可 能 需要 更 新 
所 有 索引 ， 但 SELECT 语句 通常 只 会 读 取 主 键 和 一 个 二 级 索引 。UPDATE 语句 依然 需要 去 
读 取 其 他 索引 的 数据 以 进行 更 新 。 在 多 索引 表 上 这 种 方法 的 效率 会 降低 。 


这 种 技术 并 不 是 “ 银 弹 “， 有 很 多 原因 会 导致 其 不 能 工作 ， 甚 至 适得其反 。 只 有 在 清楚 
硬件 和 操作 系统 的 状况 时 才能 尝试 这 种 方法 。 我 们 知道 有 些 人 利用 这 种 办 法 将 复制 速度 
提升 了 300% 到 400%， 但 我 们 也 尝试 过 很 多 次 ， 并 发 现 这 种 方法 常常 无 法 工作 。 正 确 地 
设置 参数 非常 重要 ,但 并 没有 绝对 正确 的 参数 组 合 。 


mk-slave-prefetch 是 Maatkit 中 的 一 款 工 具 ， 该 工具 实现 了 本 节 所 提 到 的 预 取 策略 。 
mk-slave-prefetch 本 身 有 很 多 复杂 的 策略 以 保证 其 在 尽 可 能 多 的 场景 下 工作 。 但 缺 
点 征 它 实在 太 复 杂 并 且 需 要 许多 专业 知识 来 使 用 。 另 一 款 工具 是 Anders Karlsson 的 
slavereadahead 工具 ， 可 以 从 http://sourceforge.net/projects/slavereadahead/ 获得 。 


男 一 种 方法 在 写作 本 书 时 还 正在 开发 中 ， 它 是 在 InnoDB 内 部 实现 的 。 它 可 以 允许 设置 
事务 为 特殊 的 模式 ， 以 允许 InnoDB 执行 “ 假 ” 更 新 。 因 此 可 以 使 用 一 个 程序 来 执行 这 
” 些 假 更 新 ， 这 样 复制 线程 就 可 以 更 快 地 执行 真正 的 更 新 。 我 们 已 经 在 Percona Server 中 
为 一 个 非常 流行 的 互联 网 网 络 应 用 单独 开发 了 该 功能 。 可 以 去 检查 一 下 此 特性 现在 的 状 
态 ， 因 为 在 本 书 出 版 时 或 许 已 经 更 新 过 了 。 


如 果 正 在 孝 虑 这 项 技术 ， 可 以 从 一 个 熟悉 其 工作 原理 及 可 用 选项 的 专家 那里 获得 很 好 的 
建议 。 这 应 该 作为 其 他 方案 都 不 可 行 时 最 后 的 解决 办 法 。 


10.7.15 来 自主 库 的 过 大 的 包 

另 一 个 难以 追踪 的 问题 是 主 库 的 max allowed packet 值 和 备 库 的 不 匹配 , 在 这 种 情况 下 ， 
主 库 可 能 会 记录 一 个 备 库 认为 过 大 的 包 。 当 备 库 获 取 到 该 二 进 制 日 志 事件 时 ， 可 能 会 磁 
到 各 种 各 样 的 问题 ， 包 括 无 限 报错 和 重 试 ， 或 者 中 继 日 志 损 坏 。 


10.7.16 受 限 制 的 复制 带宽 
如 果 使 用 受 限 的 带宽 进行 复制 ， 可 以 开启 备 库 上 的 slave_compressed_ protocol 选项 
(在 MySQL 4.0 及 新 版 本 中 可 用 )。 当 备 库 连接 主 库 时 ， 会 请 求 一 个 被 压缩 的 连接 一 一 和 
MySQL 客户 端 使 用 的 压缩 连接 一 样 。 使 用 的 压缩 引擎 是 zlip， 我 们 的 测试 表明 它 能 将 文 
本 类 型 的 数据 压缩 到 大 约 其 原始 大 小 的 三 分 之 一 。 其 代价 是 需要 额外 的 CPU 时 间 ， 包 括 
在 主 库 上 压缩 数据 和 在 备 库 上 解压 数据 。 
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如 果 主 库 和 其 备 库 间 的 连接 是 慢 速 连接 ， 可 能 需要 将 分 发 主 库 和 备 库 分 布 在 同一 地 氮 。 
这 样 就 只 有 一 台 服 务 器 通过 慢 速 连接 和 主 库 相 连 ， 可 以 减少 链 路 上 的 带宽 负载 以 及 主 库 
的 CPU 负载 。 


10.7.17 磁盘 空间 不 足 

复制 有 可 能 因为 二 进 制 日 志 、 中 继 日 志 或 临时 文件 将 磁盘 撑 满 。 特 别 是 在 主 库 上 执行 了 
LOAD DATA INFILE 查询 并 在 备 库 开启 了 log slave updates 选项 。 延 迟 越 严 重 ， 接 收 到 
但 尚未 执行 的 中 继 日 志 会 占用 越 多 的 磁盘 空间 。 可 以 通过 监控 磁盘 并 设置 reLay_ Log 
space 选项 来 避免 这 个 问题 。 


10.7.18 复制 的 局 限 性 

MySQL 复制 可 能 失败 或 者 不 同步 ， 不 管 有 没有 报错 ， 这 是 因为 其 内 部 的 限制 导致 的 。 
大 量 的 SQL 函数 和 编程 实践 不 能 被 可 靠 地 复制 (本 章 我 们 已 经 讨论 了 许多 这 样 的 例子 )。 
很 难 确 保 应 用 代码 里 不 会 出 现 这 样 或 那样 的 问题 ， 特 别 是 应 用 或 者 团队 非常 庞大 的 时 
fe, #2 


另外 一 个 问题 是 服务 器 的 Bug， 虽 然 听 起 来 很 消极 ， 但 大 多 数 MySQL 的 主 版 本 都 存在 
着 历史 遗留 的 复制 Bug。 特 别 是 每 个 主 版 本 的 第 一 个 版 本 。 诸 如 存储 过 程 这 样 的 新 特性 
常常 会 导致 更 多 的 问题 。 


MySQL 复制 非常 复杂 。 应 用 程序 越 复杂 ， 你 就 需要 越 小 心 。 但 是 如 果 学 会 了 如 何 使 用 ， 
复制 会 工作 得 很 好 。 


10.8 复制 有 多 快 


关于 复制 的 一 个 比较 普遍 的 问题 是 复制 到 底 有 多 快 ? 简单 来 讲 ， 它 与 MySQL MEER 
制 事件 并 在 备 库 重 放 的 速度 一 样 快 。 如 采 网 络 很 慢 并 且 二 进 制 日 志 事 件 很 大 ， 记 录 二 进 
制 日 志和 在 备 库 上 执行 的 延迟 可 能 会 非常 明显 。 如 果 查 询 需 要 执行 很 长 时 间 而 网 络 很 快 ， 
通常 可 以 认为 查询 时 间 占 据 了 更 多 的 复制 时 间 开 销 。 


更 完整 的 答案 是 计算 每 一 步 花 费 的 时 间 ， 并 找到 应 用 中 耗 时 最 多 的 那 一 部 分 。 一 些 读 者 
可 能 只 关注 主 库 上 记录 事件 和 将 事件 复制 到 中 继 日 志 的 时 间 间 隔 。 对 于 那些 想 了 解 更 多 
细节 的 读者 ， 我 们 可 以 做 一 个 快速 的 实验 。 

我 们 在 本 书 的 第 一 版 详细 描述 了 复制 的 过 程 和 Giuseppe Maxia 提供 的 测量 高 精度 复制 速 


注 22 : 最 近 的 MySQL 版 本 没有 forbid operations unsafe for replication 选项 ， 但 它 确实 对 一 些 不 
安全 的 事情 起 到 了 登 示 ， 黄 至 拒绝 。 
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RRES”, 我 们 创建 了 一 个 非 确 定性 的 用 户 自 定义 函数 (UDF), 以 微 秒 精度 返回 系统 
了 时间 ( 源 代码 参阅 前 面 的 “用 户 定义 函数 ”) : 


nysql> SELECT NOW USEC() 


首先 将 NOW_USEC() 函数 的 值 插 入 到 主 库 的 一 张 表 中 ， 然 后 比较 它 在 备 库 上 的 值 ， 以 此 来 
测量 复制 的 速度 。 


为 了 测量 延迟 ， 我 们 在 一 台 服 务 器 上 开启 两 个 MySQL 实例 ， 以 避免 由 于 时 钟 引 起 的 不 
精确 。 我 们 将 其 中 一 个 实例 配置 为 另 一 个 的 备 库 ， 然 后 在 主 库 实 例 上 执行 如 下 语句 : 


mysql> CREATE TABLE test.lag test( 
-> id INT NOT NULL AUTO_INCREMENT PRIMARY KEY, 
-> now usec VARCHAR(26) NOT NULL 


-> ); 
mysql> INSERT INTO test.lag test(now usec) VALUES( NOW USEC() ); 


我 们 使 用 的 是 VARCHAR 列 ， 因 为 MySQL 内 建 的 时 间 类 型 只 能 精确 到 秒 (尽管 一 些 
时 间 函 数 可 以 执行 小 于 秒 级 别 的 计算 )， 剩 下 的 就 是 比较 主 备 的 差异 。 这 里 我 们 使 用 
Federated 表 站 4。 在 备 库 上 执行 


mysql> CREATE TABLE test.master_val ( 
-> id INT NOT NULL AUTO_ INCREMENT PRIMARY KEY, 
->  now_usec VARCHAR(26) NOT NULL 
-> ) ENGINE=FEDERATED 
-> CONNECTION='mysql://user:pass@127.0.0.1/test/lag_test',; 


简单 的 关联 和 TIMESTAMPDIFF () ba $e AT DA GoD A BE Sb aN SE A ee ee ET REAR 
| 
mysql> SELECT m.id, TIMESTAMPDIFF(FRAC_SECOND, m.now_usec, s.now_usec) AS usec_lag 
-> FROM test.lag test as s 
-> INNER JOIN test.master_val AS m USING(id); 


+----+---------- + 
| id | usec_lag | 
oe + 
| 1 | 476 | 
+----+---------- + 


我 们 使 用 Perl 脚本 向 主 库 中 插入 1 000 行 数 据 ， 每 个 插入 间 有 10 毫秒 的 延 时 ， 以 避免 主 
备 实例 竞争 CPU 时 间 。 然 后 创建 一 个 临时 表 来 存储 每 个 事件 的 延迟 : 


注 23 : 查看 http://datacharmer blogspot.com/2006/04/measuring-replication-speed.html , 
注 24 : 顺便 说 一 下 ， 这 也 是 一 些 作 者 唯一 一 次 使 用 Federated 存储 引擎 。 
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mysql> CREATE TABLE test.lag AS : 
> SELECT TIMESTAMPDIFF(FRAC_SECOND, m.now_usec, s.now_usec) AS lag 
-> FROM test.master_val AS m 
-> INNER JOIN test.lag test as s USING(id); 


接着 根据 延迟 时 间 分 组 ， 可 以 看 到 最 常见 的 延迟 时 间 是 多 少 : 


mysql> SELECT ROUND(lag / 1000000.0, 4) * 1000 AS msec_lag, COUNT(*) 
-> FROM lag 
-> GROUP BY msec_lag 
-> sie BY msec -8; 


| 0.1000 | 392 | 
| 0.2000 | 468 | 
| 0.3000 | 75 | 
| 0.4000 | 32 | 
| 0.5000 | 15 | 
| 0.6000 | 9 | 
| 0.7000 | 2 | 
| 1.3000 | 2 | 
| 1.4000 | 1 | 
| 1.8000 | 1 | 
| 4.6000 | 1 | 
| 6.6000 | 1 | 
| 24.3000 | 1 | 
+---------- +---------- + 


结 采 显示 大 多 数 小 查询 在 主 库 上 的 执行 时 间 和 备 库 上 的 执行 时 间 间 隔 大 多 数 小 于 0.3 毫 
秒 。 | 


复制 过 程 中 没有 计算 的 部 分 是 事件 在 主 库 上 记录 到 二 进 制 日 志 后 需要 多 长 时 间 传 递 到 备 
Pe TE ue A er I eRe heal E Ke ts 
它 就 能 在 主 库 崩 涡 时 提供 一 个 撕 贝 


尽管 我 们 的 测量 结果 没有 精确 地 显示 这 部 分 需要 多 长 时 间 ， 但 理论 上 非常 快 例如 ， 仅 
仅 受 限于 网 络 速度 )。MySQL 二 进 制 日 志 转 储 线程 并 没有 通过 轮 询 的 方式 从 主 库 请 求 事 
件 ， 而 是 由 主 库 来 通知 备 库 新 的 事件 ， 因 为 前 者 低 效 且 缓 慢 。 从 主 库 读 取 一 个 二 进 制 日 
志 事 件 是 一 个 阻塞 型 网 络 调用 ， 当 主 库 记录 事件 后 ， 马 上 就 开始 发 送 。 因 此 可 以 说 ， 只 
要 复制 线程 被 唤醒 并 且 能 够 通过 网 络 传输 数据 ， 事 件 就 会 很 快 到 达 备 库 。 


10.9 MySQL 复制 的 高 级 特性 

Oracle 对 MySQL 5.5 的 复制 有 着 明显 的 改进 。 更 多 的 特性 还 在 开发 中 ，MySQL 5.6 将 包 
含 这 些 新 特性 。 一 些 改进 使 得 复制 更 加 强健 例如， 增加 了 多 线程 (并行 ) 复制 以 减少 
当前 单线 程 复 制 的 瓶颈 。 另 外 ， 还 有 一 些 改进 增加 了 一 些 高 级 特性 ， 使 得 复制 更 加 灵活 
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并 可 控制 。 我 们 不 会 描述 太 多 尚未 GA 的 功能 ,但 会 讨论 一 些 MySQL 5.5 关 于 复制 的 改进 。 


第 一 个 是 半 同 步 复 制 ， 基 于 Google 多 年 前 所 做 的 工作 。 这 是 自 MySQL 5.1 引入 行 复制 “<515] 
后 最 大 的 改进 。 它 可 以 帮助 你 确保 备 库 拥 有 主 库 数据 的 拷贝 ， 减 少 了 潜在 的 数据 丢失 危 
险 。 


半 同 步 复制 在 提交 过 程 中 增加 了 一 个 延迟 : 当 提交 事务 时 ， 在 客户 端 接收 到 查询 结束 反 
馈 前 必须 保证 二 进 制 日 志 已 经 传输 到 至 少 一 台 备 库 上 。 主 库 将 事务 提交 到 磁盘 上 之 后 会 
增加 一 些 延 迟 。 同 样 的 ， 这 也 增加 了 客户 端的 延迟 ， 因 此 其 执行 大 量 事 务 的 速度 不 会 比 
将 这 些 事务 传递 给 备 库 的 速度 更 快 。 


关于 半 同 步 ， 有 一 些 普 遍 的 误解 ， 下 面 是 它 不 会 去 做 的 : 


。 在 备 库 提示 其 已 经 收 到 事件 前 ， 会 阻塞 主 库 上 的 事务 提交 。 事 实 上 在 主 库 上 已 经 完 
成 事务 提交 ， 只 有 通知 客户 端 被 延迟 了 。 

。 直到 备 库 执行 完事 务 后 ， 才 不 会 阻塞 客户 端 。 备 库 在 接收 到 事务 后 发 送 反 馈 而 非 完 

成 事务 后 发 送 。 

半 同 步 不 总 是 能 够 工作 。 如 果 备 库 一 直 没 有 回应 已 收 到 事件 ， 会 超时 并 转化 为 正常 

的 异步 复制 模式 。 


尽管 如 此 ， 这 仍然 是 一 个 很 好 用 的 工具 ， 有 助 于 确保 备 库 提供 更 好 的 元 余 度 和 持久 性 。 


在 性 能 方面 ， 从 客户 端的 角度 来 看 ， 增 加 了 事务 提交 的 延 时 ， 延 时 的 多 少 取 决 于 网 络 传 
输 ， 数 据 写 入 和 刷新 到 备 库 磁盘 的 时 间 (如 果 开 启 了 配置 ) 以 及 备 库 反馈 的 网 络 时 间 。 
听 起 来 似乎 这 是 累加 的 ， 但 测试 证 明 这 些 几 乎 是 不 重要 的 ， 也 许 延 迟 是 由 其 他 原因 引起 
的 。Giuseppe Maxia 发 现 每 次 提交 大 约 延 时 200 GRE, HFN BSI A RES EEH 
显 ， 这 也 是 预期 中 的 。 


事实 上 半 同 步 复 制 在 某 些 场景 下 确实 能 够 提供 足够 的 灵活 性 以 改善 性 能 ， 在 主 库 关 闭 
sync_binlog 的 情况 下 保证 更 加 安全 。 写 入 远程 的 内 存 〈 一 台 备 库 反 馈 ) 比 写 入 本 地 的 

磁盘 ( 写 入 并 刷新 ) 要 更 快 。Henrik Ingo 运行 了 一 些 性 能 测试 表明 ， 使 用 半 同 步 复 制 

相 比 在 主 库 上 进行 强 持久 化 的 性 能 有 两 倍 的 改善 ““。 在 任何 系统 上 都 没有 绝对 的 持久 

化 一 一 只 有 更 加 高 的 持久 化 层次 一 一 并 且 看 起 来 半 同 步 复制 应 该 是 一 种 比 其 他 替代 方案 
开销 更 小 的 系统 数据 持久 化 方法 。 


除了 半 同 步 复制 ，MySQL 5.5 还 提供 了 复制 心跳 ， 保 证 备 库 一 直 与 主 库 相 联系 ， 避 免 悄 
无 声息 地 断 开 连接 。 如 果 出 现 断 开 的 网 络 连 接 ， 备 库 会 注意 到 丢失 的 心跳 数据 。 当 使 用 


注 25 : 参阅 http-//datacharmer.blogspot.com/2011/05/price-of-safe-data-benchmarking-semi.html . 
注 26 : 参阅 http-//openlife.cc/blogs/2011/may/drbd-and-semi-sync-shootout-large-server , 
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基于 行 的 复制 时 ， 还 提供 了 一 种 改进 的 能 力 来 处 理 主 库 和 备 库 上 不 同 的 数据 类 型 。 有 儿 
个 选项 可 以 用 于 配置 复制 元 数据 文件 是 如 何 刷新 到 磁盘 以 及 在 一 次 崩溃 后 如 何 处 理 中 继 
日 志 ， 减 少 了 备 库 崩 省 恢复 后 出 现 问题 的 概率 。 


我 们 还 没有 看 到 MySQL 5.5 对 复制 的 改进 大 规模 地 在 生产 环境 进行 部 署 ， 因 此 还 需要 进 
行 更 多 的 研究 。 


除了 上 面 提 到 的 ， 这 里 简要 地 列 出 其 他 一 些 改进 ， 包 括 MySQL 以 及 第 三 方 分 支 ， 例 如 
Percona Server 以 及 MariaDB : 


e Oracle 在 MySQL 5.6 实验 室 版 本 和 开发 里 程 碑 版 本 中 有 许多 的 改进 。 
一 事务 复制 状态 ， 即 使 崩溃 也 不 会 导致 元 数据 失去 同步 (Percona Server 和 
MariaDB 已 经 以 别 的 形式 实现 了 )。 
一 ”二进制 日 志 的 checksum 值 ， 用 于 检测 中 继 日 志 中 损坏 的 事件 。 
一 备 库 延 迟 复制 ， 用 于 替代 Percona Toolkit 中 的 pt-slave-delay 工具 。 
一 人 允许 基于 行 的 二 进 制 日 志 事 件 也 包含 在 主 库 执 行 的 SQL. 
一 ”实现 多 线程 复制 (并行 复 制 )。 
。 MySQL5.6、Percona Server、Facebook 以 及 MariaDB 提供 了 三 种 修复 方法 解决 了 
MySQL 5.0 引入 的 GROUP COMMIT 的 问题 。 | 


10.10 其 他 复制 技术 


MySQL 内 建 的 复制 并 不 是 将 数据 从 一 台 服 务 器 复制 到 另外 一 台 服 务 器 的 唯一 办 法 ， 尽 
管 大 多 数 时 候 是 最 好 的 办 法 。( 与 PostgreSQL 相 比 , MySQL 并 没有 大 量 附 加 的 复制 选项 ， 
可 能 是 因为 复制 功能 在 早期 就 已 经 引入 了 )。 


我 们 已 经 讨论 了 MySQL 复制 的 一 些 扩展 技术 ， 如 Oracle GoldenGate, 但 对 大 多 数 工 
具 我 们 都 不 熟悉 ， 因 此 无 法 讨论 太 多 。 但 是 有 两 个 我 们 需要 指出 来 ， 第 一 个 是 Percona 
XtraDB Cluster 的 同步 复制 ， 我 们 会 在 第 12 章 介 绍 ， 因 为 它 比 较 适 合 在 高 可 用 性 这 一 
章 讲述 。 另 一 个 是 Continuent 的 Tungsten Replicator (http://code.google.com/p/tungsten- 


replicator/) 。 


Tungsten 是 一 个 用 Java 编写 的 开源 的 中 间 件 复制 产品 。 它 的 功能 和 Oracle GoldenGate 
类 似 ， 并 且 看 起 来 在 未 来 发 布 的 版 本 中 将 逐步 增加 许多 复杂 的 特性 。 在 写作 本 书 时 ， 它 
已 经 提供 了 一 些 特性 ， 例 如 ， 在 服务 器 间 复 制 数据 、 自 动 数 据 分 片 、 在 备 库 并 发 执行 更 
新 (多 线程 复制 )、 当 主 库 失败 时 提升 备 库 、 跨 平台 复制 ， 以 及 多 源 复 制 (多 个 复制 源 
到 一 个 目标 )。 它 是 Tungsten 数据 库 clustering suite 的 开源 版 本 。 
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Tungsten 同样 实现 了 多 主 库 集 群 ， 可 以 把 写 入 指向 集群 中 任意 一 台 服 务 器 。 这 种 架构 的 
实现 通常 都 包含 冲突 发 现 与 解决 。 这 一 点 很 难 做 到 ， 并 且 不 总 是 需要 的 。Tungsten 的 
实现 稍微 做 了 点 限制 ,不 是 所 有 的 数据 都 能 在 所 有 的 节点 写 入 ， 每 个 节点 被 标记 为 记录 
系统 ， 以 接收 特定 的 数据 。 例 如 ， 在 西雅图 的 办 公 室 可 以 拥有 并 写 入 它 的 数据 ， 然 后 复 
制 到 休斯敦 和 巴尔 的 摩 。 在 休斯敦 和 巴尔 的 摩 本 地 可 以 实现 低 延 迟 读 数据 ， 但 在 这 里 
Tungsten 不 允许 写 入 数据 ， 这 样 数 据 冲 突 就 不 存在 了 。 当 然 休斯敦 和 巴尔 的 摩 可 以 更 新 
它们 目 己 的 数据 ， 并 被 复制 到 其 他 地 点 。 这 种 “记录 系统 ”方案 解决 了 人 们 需要 在 环形 
结构 中 频繁 调整 内 建 MySQL 复制 的 问题 。 我 们 之 前 讨论 的 环形 复制 还 远 远 不 够 安全 或 
强健 。 


Tungsten Replicator PERA REE MySQL 复制 ， 而 是 直接 替代 它 。 它 通过 读 取 主 
库 的 二 进 制 日 志 来 获得 数据 更 新 ， 那 里 正 是 内 建 MySQL 复制 工作 结束 的 地 方 ， 然 后 由 
Tungsten Replicator 接管 。 它 读 取 二 进 制 日 志 ， 并 抽取 出 事务 ， 然 后 在 备 库 执行 它们 。 


该 过 程 比 MySQL 复制 本 身 有 更 丰富 的 功能 集 。 实 际 上 ，Tungsten Replicator 是 第 一 个 提 
ft MySQL 并 行 复 制 支持 的 。 虽 然 我 们 还 没有 看 到 其 被 应 用 到 生产 环境 中 ， 但 它 声 称 能 
够 提供 最 多 三 倍 的 复制 速度 改善 ， 具 体 取 决 于 负载 特性 。 基 于 该 架构 以 及 我 们 对 该 产品 
的 了 解 ， 这 看 起 来 是 可 信和 的 。 


以 下 是 关于 Tungsten Replicator 中 值得 欣赏 的 部 分 : 


© 它 提 供 了 内 建 的 数据 一 致 性 检查 。 

e。 提供 了 插件 特性 ， 因 此 你 可 以 编写 自己 的 函数 。MySQL 的 复制 源 代 码 非常 难以 理解 
并 且 很 难 去 修改 。 即 使 非常 聪明 的 程序 员 在 试图 修改 时 ， 也 会 引入 新 的 Bug。 因 而 
能 有 种 途径 去 修改 复制 而 无 须 修改 MySQL 的 复制 代码 ， 是 非常 理想 的 。 

。 拥有 全 局 事务 ID， 能 够 帮助 你 了 解 每 个 服务 器 相互 之 间 的 状态 而 无 须 去 匹配 二 进 制 
日 志 名 和 偏 移 量 。 

。 它 是 一 个 高 可 用 的 解决 方案 ， 能 够 快速 地 将 一 台 备 库 提 升 为 主 库 。 

。 提供 异 构 数 据 复制 (例如 ,在 MySQL 和 PostgreSQL 之 间或 者 MySQL 和 Oracle 之 间 )。 

。 ”支持 不 同 版 本 的 MySQL 复制 ， 以 防止 MySQL 复制 不 能 反 向 兼容 。 这 对 某 些 升级 的 
场景 非常 有 用 。 当 升级 运行 得 不 理想 时 ， 你 可 能 无 法 设计 一 个 可 行 的 回 滚 方案 ， 或 
者 必须 升级 服务 器 到 一 个 并 不 是 你 期 望 的 版 本 。 

© 并行 复 制 的 设计 非常 适用 于 共享 应 用 程序 或 多 任务 应 用 程序 。 

e Java 应 用 能 够 明确 地 写 入 主 库 并 从 备 库 读 取 。 

e 得 益 于 Giuseppe Maxia 作为 QA 主管 的 大 量 工作 ， 现 在 比 以 往 更 加 简单 并 且 更 加 容 
易 配 置 和 管理 。 
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以 下 是 它 的 一 些 缺 点 : 


。 CHEAR MySQL 复制 更 加 复杂 ，、 有 更 多 可 变动 的 地 方 需 要 配置 和 管理 ， 毕 况 它 
是 一 个 中 间 件 。 

。 在 你 的 应 用 栈 中 需要 多 学 习 和 理解 一 个 新 的 工具 。 

© CETERAE MySQL 复制 那样 轻 量 级 ， 并 且 没 有 同样 的 性 能 。 使 用 Tungsten 
Replicator 进行 单线 程 复制 比 MySQL 的 单线 程 复 制 要 慢 。 

© 作为 MySQL 复制 并 没有 经 过 广泛 的 测试 和 部 署 ， 所 以 Bug 和 问题 的 风险 很 高 。 


总 而 言 之 ， 我 们 很 高 兴 Tungsten Replicator 是 可 用 的 ， 并 且 在 积极 的 开发 中 ， 稳 定 地 释 
放 新 的 特性 和 功能 。 拥 有 一 个 可 替代 内 建 MySQL 复制 的 选择 ， 这 非常 棒 ， 使 得 MySQL 
能 够 适用 于 更 多 的 应 用 场景 ， 并 且 足 够 灵活 ， 能 够 满足 内 建 的 MySQL 复制 可 能 永远 无 
法 满足 的 需求 。 


10.11 总 结 


MySQL 复制 是 其 内 建功 能 中 的 “瑞士 军刀 "， 显 著 增加 了 MySQL 的 功能 和 可 用 性 。 事 
实 上 这 也 是 MySQL 这 么 快 就 如 此 流行 的 关键 原因 之 一 。 


尽管 复制 有 许多 限制 和 风险 ， 但 大 多 数 相 对 不 重要 或 者 对 大 多 数 用 户 而 言 是 可 以 避免 的 。 
许多 缺点 只 在 一 些 高 级 特性 的 特殊 行为 中 ， 这 些 特性 对 少数 需要 的 人 而 言 是 有 帮助 的 ， 
但 大 多 数 人 并 不 会 用 到 。 


正 因为 复制 提供 了 如 此 重要 和 复杂 的 功能 ， 服 务 器 本 身 不 提供 所 有 其 他 你 需要 的 功能 ， 
例如 ， 配 置 、 监 控 、 管 理 和 优化 。 第 三 方 工具 可 以 很 好 地 帮助 你 。 虽 然 可 能 有 人 失 偏 颇 ， 
但 我 们 认为 最 值得 关注 的 工具 一 定 是 Percona Toolkit. 和 Percona XtraBackup, ‘ERE 
很 好 地 改进 你 对 复制 的 使 用 。 在 使 用 别 的 工具 前 ， 建 议 你 先 检查 它们 的 测试 集合 ， 如 时 
没有 正式 的 、 自 动 化 的 测试 集合 ， 在 将 其 应 用 到 你 的 数据 之 前 请 认真 考虑 。 


对 于 复制 ,应 该 铭记 K.LS.S"” 原则。 不 要 按照 想象 做 事 , 例如 ,使 用 环形 复制 、 黑 洞 表 
或 者 复制 过 滤 ， 除 非 确实 有 需要 。 使 用 复制 简单 地 去 镜像 一 份 完整 的 数据 拷贝 ， 包 括 所 
有 的 权限 。 在 各 方面 保持 你 的 主 备 库 相 同 可 以 帮助 你 避免 很 多 问题 。 


谈 到 保持 主 库 和 备 库 相 同 ， 这 里 有 一 个 简短 但 很 重要 的 列表 告诉 你 在 使 用 复制 的 时 候 需 
要 做 什么 : 


o {E} Percona Toolkit 中 的 pt-table-checksum 以 确定 备 库 是 主 库 的 真实 拷贝 。 
e 监控 复制 以 确定 其 正在 运行 并 且 没 有 落后 于 主 库 。 


注 27: Keep It Simple, Schwartz! 总 之 一 些 人 认为 这 是 K.IL.S.S HEX, 
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。 理解 复制 的 异步 本 质 ， 并 且 设 计 你 的 应 用 以 避免 或 容忍 从 备 库 读 取 脏 的 数据 。 

。 在 一 个 复制 拓扑 中 不 要 写 入 超过 一 个 服务 器 ， 把 备 库 配置 为 只 读 ， 并 降低 权限 以 阻 
止 对 数据 的 改变 。 

。 打开 本 章 所 讨论 的 那些 明智 并 且 安 全 的 设置 。 


正如 我 们 将 要 在 第 12 章 讨论 的 ， 复制 失 败 是 MySQL 故障 时 间 中 最 普遍 的 原因 之 一 。 
为 了 避免 复制 的 问题 ， 阅 读 第 12 章 ， 并 尝试 应 用 其 给 予 的 建议 。 你 同样 也 应 该 通读 
MySQL 手册 中 关于 复制 的 章节 ,并 了 解 复制 如 何 工作 以 及 如 何 去 管 理 它 。 如 果 乐 于 阅读 ， 
Charles Bell et al. 所 著 的 MySOL High Availability (O’Reilly) 一 书 中 有 许多 关于 复制 内 
部 的 有 用 信息 。 但 你 依然 需要 阅读 手册 ! 
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第 11 章 a 


可 扩展 的 MySQL 


本 章 将 展示 如 何 构 建 一 个 基于 MySQL 的 应 用 ， 并 且 当 规模 变 得 越 来 越 庞大 时 ， 还 能 保 
证 快速 、 高 效 并 且 经 济 。 


有 些 应 用 仅仅 适用 于 一 台 或 少数 几 台 服务 器 ， 那 么 哪些 可 扩展 性 建议 是 和 这 些 应 用 相关 
的 呢 ? 大 多 数 人 从 不 会 维护 超大 规模 的 系统 ， 并 且 通 常 也 无 法 效仿 在 主流 大 公司 所 使 用 
的 策略 。 本 章 会 涵盖 这 一 系列 的 策略 。 我 们 已 经 建立 或 者 协助 建立 了 许多 应 用 ， 包 括 从 
单 台 或 少量 服务 器 的 应 用 到 使 用 上 千 台 服务 器 的 应 用 。 选 择 一 个 合适 的 策略 能 够 大 大 地 
节约 时 间 和 人 金钱。 | 


MySQL 经 常 被 批评 很 难 进行 扩展 ， 有 些 情 况 下 这 种 看 法 是 正确 的 ， 但 如 果 选 择 正 确 的 
架构 并 很 好 地 实现 ， 就 能 够 非常 好 地 扩展 MySQL。 但 是 扩展 性 并 不 是 一 个 很 好 理解 的 
主题 ， 所 以 我 们 先 来 理 清 一 些 容易 混淆 的 地 方 。 


11.1 什么 是 可 扩展 性 | 

人 们 常常 把 诸如 “可 扩展 性 "、“ 高 可 用 性 ”以 及 “性 能 ”等 术语 在 一 些 非 正式 的 场合 用 
作 同 义 词 ， 但 事实 上 它们 是 完全 不 同 的 。 在 第 3 章 已 经 解释 过 ， 我 们 将 性 能 定义 为 响应 
时 间 。 我 们 也 可 以 很 精确 地 定义 可 扩展 性 ， 稍 后 将 完整 讨论 。 简 要 地 说 ， 可 扩展 性 表明 
了 当 需 要 增加 资源 以 执行 更 多 工作 时 系统 能 够 获得 划算 的 等 同 提升 (equal bang for the 
buck) 的 能 力 。 缺 乏 扩展 能 力 的 系统 在 达到 收益 递减 的 转折 点 后 ， 将 无 法 进一步 增长 。 


容量 是 一 个 和 可 扩展 性 相关 的 概念 。 系 统 容量 表示 在 一 定时 间 内 能 够 完成 的 工作 量 *， 
但 容量 必须 是 可 以 有 效 利 用 的 。 系 统 的 最 大 吞吐 量 并 不 等 同 于 容量 。 大 多 数 基准 测试 能 <2] 


注 1: 从 物理 学 来 看 ， 单 位 时 间 内 做 的 功 称 为 功率 (power) ， 而 在 计算 机 领域 ， power 是 一 个 被 反复 
使 用 的 术语 ， 含 义 模糊 ， 因 此 应 避免 使 用 它 。 但 是 关于 容量 的 精确 定义 是 系统 的 最 大 功率 输出 。 
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够 衡量 一 个 系统 的 最 大 吞吐 量 ， 但 真实 的 系统 一 般 不 会 使 用 到 极限 。 如 果 达 到 最 大 吞吐 
量 ， 则 性 能 会 下 降 ， 并 且 响 应 时 间 会 变 得 不 可 接受 地 大 且 非 常 不 稳定 。 我 们 将 系统 的 真 
实 容量 定义 为 在 保证 可 接受 的 性 能 的 情况 下 能 够 达到 的 吞吐 量 。 这 就 是 为 什么 基准 测试 
的 结果 通常 不 应 该 简化 为 一 个 单独 的 数字 。 


容量 和 可 扩展 性 并 不 依赖 于 性 能 。 以 高 速 公 路 上 的 汽车 来 类 比 的 话 : 


。 ”性 能 是 汽车 的 时 速 。 
。 ”容量 是 车 道 数 乘 以 最 大 安全 时 速 。 | 
。 可 扩展 性 就 是 在 不 减 慢 交通 的 情况 下 ， 能 增加 更 多 车 和 车 道 的 程度 。 


在 这 个 类 比 中 ， 可 扩展 性 依赖 于 多 个 条 件 : 换 道 设计 得 是 否 合理 、 路 上 有 多 少 车 抛锚 或 
者 发 生 事故 ， 汽 车 行驶 速度 是 否 不 同 或 者 是 否 频 繁 变换 车 道 一 一 但 一 般 来 说 和 汽车 的 引 
获 是 否 强大 无 关 。 这 并 不 是 说 性 能 不 重要 ， 性 能 确实 重要 ， 只 是 需要 指出 ， 即 使 系统 性 
能 不 是 很 高 也 可 以 具备 可 扩展 性 。 


从 较 高 层次 看 ， 可 扩展 性 就 是 能 够 通过 增加 资源 来 提升 容量 的 能 力 。 


即使 MySQL 架构 是 可 扩展 的 ， 但 应 用 本 身 也 可 能 无 法 扩展 ， 如 果 很 难 增 加 容量 ， 不 管 
原因 是 什么 ， 应 用 都 是 不 可 扩展 的 。 之 前 我 们 从 吞吐 量 方面 来 定义 容量 ， 但 同样 也 需要 
从 较 高 的 层次 来 看 待 容量 问题 。 从 有 利 的 角度 来 看 ， 容 量 可 以 简单 地 认为 是 处 理 负载 的 
能 力 ， 从 不 同 的 角度 来 考虑 负载 很 有 帮助 。 


数据 量 
应 用 所 能 累积 的 数据 量 是 可 扩展 性 最 普遍 的 挑战 ， 特 别 是 对 于 现在 的 许多 互联 网 应 
用 而 言 ， 这 些 应 用 从 不 删除 任何 数据 。 例 如 社交 了 网站， 通常 从 不 会 删除 老 的 消息 或 
评论 。 

用 户 量 
即使 每 个 用 户 只 有 少量 的 数据 ， 但 在 累计 到 一 定数 量 的 用 户 后 ， 数 据 量 也 会 开始 不 
成 比例 地 增长 且 速 度 快 过 用 户 数 增长 。 更 多 的 用 户 意 味 着 要 处 理 更 多 的 事务 ， 并 且 
事务 数 可 能 和 用 户 数 不 成 比例 。 最 后 ， 大 量 用 户 (以 及 更 多 的 数据 ) 也 意味 着 更 多 
复杂 的 查询 ,特别 是 查询 跟 用 户 关系 相关 时 (用 户 间 的 关联 数 可 以 用 Nx (N-1) 来 计算 ， 
这 里 入 表示 用 户 数 )。 

用 户 活跃 度 
.不 是 所 有 的 用 户 活 跃 度 都 相同 ， 并 且 用 户 活 跃 度 也 不 总 是 不 变 的 。 如 果 用 户 突 然 变 
得 活跃 ， 例 如 由 于 增加 了 一 个 吸引 人 的 新 特性 ， 那 么 负载 可 能 会 明显 提升 。 用 户 活 
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跃 度 不 仅仅 指 页 面 浏览 数 ， 即 使 同样 的 页 面 浏览 数 ， 如 果 网 站 的 某 个 需要 执行 大 量 《223] 
工作 的 部 分 变 得 流行 ， 也 可 能 导致 更 多 的 工作 。 另 外 ， 某 些 用 户 也 会 比 其 他 用 户 更 
活跃 : 他 们 可 能 比 一 般 人 有 更 多 的 朋友 、 消 息 和 照片 。 
相关 数据 集 的 大 小 
如 果 用 户 间 存在 关系 ， 应 用 可 能 需要 在 整个 相关 联 用 户 群体 上 执行 查询 和 计算 ， 这 
比 处 理 一 个 一 个 的 用 户 和 用 户 数据 要 复杂 得 多 。 社 交 网 站 经 常会 遇 到 由 那些 人 气 很 
旺 的 用 户 组 或 朋友 很 多 的 用 户 所 带 来 的 挑战 生 ?。 


11.1.1 正式 的 可 扩展 性 定义 

有 必要 探讨 一 下 可 扩展 性 在 数学 上 的 定义 了 ， 这 有 助 于 在 更 高 层次 的 概念 上 清晰 地 理解 
可 扩展 性 。 如 果 没 有 这 样 的 基础 ,就 可 能 无 法 理解 或 精确 地 表达 可 扩展 性 。 不 过 不 用 担心 ， 
这 里 不 会 涉及 高 等 数学 ， 即 使 不 是 数学 天 才 ， 也 能 够 很 直观 地 理解 它 。 


关键 是 之 前 我 们 使 用 的 短语 : “划算 的 等 同 提 升 (equal bang for the buck)”。 另 一 种 说 法 
是 , 可 扩展 性 是 当 增 加 资源 以 处 理 负载 和 增加 容量 时 系统 能 够 获得 的 投资 产 出 率 (ROI), 
假设 有 一 个 只 有 一 台 服 务 器 的 系统 ， 并 且 能 够 测量 它 的 最 大 容量 ， 如 图 11-1 所 示 。 





图 11-1: 一 个 只 有 一 台 服 务 器 的 系统 


假设 现在 我 们 增加 一 台 服 务 器 ， 系 统 的 能 力 加 倍 ， 如 图 11-2 所 示 。 


注 2: Justin Bieber, 我 们 仍然 爱 你 ! 
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1 2 服务 器 


图 11-2: 一 个 线性 扩展 的 系统 能 由 两 台 服 务 器 获得 两 倍 容 量 


这 就 是 线性 扩展 。 我 们 增加 了 一 倍 的 服务 器 ， 结 果 增 加 了 一 倍 的 容量 。 大 部 分 系统 并 不 
是 线性 扩展 的 ， 而 是 如 图 11-3 所 示 的 扩展 方式 。 





图 11-3: 一 个 非 线性 扩展 的 系统 


[52> 大 部 分 系统 都 只 能 以 比 线性 扩展 略 低 的 扩展 系数 进行 扩展 。 越 高 的 扩展 系数 会 导致 越 大 
的 线性 偏差 。 事 实 上 ， 多 数 系统 最 终 会 达到 一 个 最 大 吞吐 量 临界 点 ， 超 过 这 个 点 后 增加 
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这 怎么 可 能 呢 ? 这 些 年 产生 了 许多 可 扩展 性 模型 ， 它 们 有 着 不 同 程度 的 良好 表现 和 实 
用 性 。 我 们 这 里 所 讲 的 可 扩展 性 模型 是 基于 某 些 能 够 影响 系统 扩展 的 内 在 机 制 。 这 就 
是 Neil J. Gunther 博士 提出 的 通用 可 扩展 性 定律 (Universal Scalability Law, USL), 
Gunther 博 士 将 这 些 详 尽 地 写 到 了 他 的 书 中 ,包括 Guerrilla Capacity Planning (Springer). 
这 里 我 们 不 会 深入 到 背后 的 数学 理论 中 ， 如 果 你 对 此 感 兴趣 ， 他 撰写 的 书籍 以 及 由 他 的 
公司 Performance Dynamics 提供 的 训练 课程 可 能 是 比较 好 的 资源 。 六 4 


简 而 言 之 ，USL 说 的 是 线性 扩展 的 偏差 可 通过 两 个 因素 来 建立 模型 ; 无 法 并 发 执行 的 一 
”部 分 工作 ， 以 及 需要 交互 的 另外 一 部 分 工作 。 为 第 一 个 因素 建 模 就 有 了 著名 的 Amdahl 
定律 ， 它 会 导致 吞吐 量 趋 于 平缓 。 如 果 部 分 任务 无 法 并 行 ， 那 么 不 管 你 如 何 分 而 治之 ， 
该 任务 至 少 需要 串 行 部 分 的 时 间 。 


增加 第 二 个 因素 一 一 内 部 节点 间或 者 进程 间 的 通信 一 一 到 Amdahl 定律 就 得 出 了 USL。 
这 种 通信 的 代价 取决 于 通信 信道 的 数量 ， 而 信道 的 数量 将 按照 系统 内 工作 者 数量 的 二 次 
方 增长 。 因 此 最 终 开销 比 带 来 的 收益 增长 得 更 快 ， 这 是 产生 扩展 性 倒退 的 原因 。 图 11-4 
阐明 了 目前 讨论 到 的 三 个 概念 : 线性 扩展 、Amdahl 扩展 ， 以 及 USL 扩展 。 大 多 数 真 实 
系统 看 起 来 更 像 USL 曲线 。 


USL 可 以 应 用 于 硬件 和 软件 领域 。 对 于 硬件 ， 横 轴 表 示 硬 件 的 数量 ， 例 如 服务 器 数量 或 
CPU 数量 。 每 个 硬件 的 工作 量 、 数 据 大 小 以 及 查询 的 复杂 度 必 须 保持 为 常量 5。 对 于 软件 ， 
横 轴 表 示 并 发 度 ， 例 如 用 户 数 或 线程 数 。 每 个 并 发 的 工作 量 必须 保持 为 常量 。 


ARREZ, USL 并 不 能 完美 地 描述 真实 系统 ， 它 只 是 一 个 简化 模型 。 但 这 是 一 个 很 
好 的 框架 ， 可 用 于 理解 为 什么 系统 增长 无 法 带 来 等 同 的 收益 。 它 也 揭示 了 一 个 构建 高 可 
扩展 性 系统 的 重要 原则 : 在 系统 内 尽量 避免 串 行 化 和 交互 。 


可 以 衡量 一 个 系统 并 使 用 回归 来 确定 串 行 和 交互 的 量 。 你 可 以 将 它 作 为 容量 规划 和 性 能 
预测 评 全 的 最 优 上 限 值 。 也 可 以 检查 系统 是 怎么 偏离 USL 模型 的 ， 将 其 作为 最 差 下 限 值 
以 指出 系统 的 哪 一 部 分 没有 表现 出 它 应 有 的 性 能 。 这 两 种 情况 下 ，USL 给 出 了 一 个 讨论 
可 扩展 性 的 参考 。 如 果 没 有 USL， 那 即使 盯 着 系统 看 也 无 法 知道 期 望 的 结果 是 什么 。 如 


注 3: FRE, 投资 产 出 率 ”、 也 可 以 从 金融 投资 的 角度 来 考虑 。 将 一 个 组 件 的 容量 升级 到 两 倍 所 需要 付 
出 的 常常 不 止 是 最 初 开 销 的 两 倍 。 虽 然 在 现实 世界 里 我 们 常常 这 么 考虑 ,但 在 讨论 中 会 将 其 忽略 掉 ， 
因为 它 会 使 一 个 已 经 复杂 的 主题 变 得 更 加 复杂 。 

注 4: 你 也 可 以 阅读 我 们 的 白皮书 “Forecasting MySQL Scalability with the Universal Scalability Law”， 该 
书 扼要 地 总 结 了 USL 中 的 数学 运算 和 法 则 ， 可 以 从 http:/wwwpercona.com 获得 。 

注 5: 现实 中 很 难 精 确定 义 硬件 的 可 扩展 性 ， 因 为 当 你 改变 你 的 系统 中 的 服务 器 数量 时 很 难保 证 那些 变 
ERE, 
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果 想 深入 了 解 这 个 主题 ， 最 好 去 看 一 下 对 应 的 书籍 。Gunther 博士 已 经 写 得 很 清楚 ， 因 
此 我 们 不 会 再 深入 讨论 下 去 。 


线性 扩展 一 
Amdahl 扩展 == sm == 
USL oo RR conuen 


Be a 





服务 器 数量 


图 11-4: 线性 扩展 、Amdahl 扩 展 以 及 USL 扩 展 定律 


L527 > 另外 一 个 理解 可 扩展 性 问题 的 框架 是 约束 理论 ， 它 解释 了 如 何 通 过 减少 依赖 事件 和 统计 
变化 (statistical variation) 来 改进 系统 的 吞吐 量 和 性 能 。 这 在 Eliyahu M. Goldratt ArH 
写 的 The Goal (North River) 一 书 中 有 描述 ， 其 中 有 一 个 关于 管理 制造 业 设备 的 延伸 的 
比喻 。 尽 管 这 看 起 来 和 数据 库 服务 器 没有 什么 关联 ， 但 其 中 包含 的 法 则 和 排队 理论 以 及 
其 他 运筹 学 方面 是 一 样 的 。 


扩展 模型 不 是 最 终 定 论 
虽然 有 许多 理论 ， 但 在 现实 中 能 做 到 何 种 程度 呢 ? 正如 牛顿 定律 被 证 明 只 有 远 低 于 
光速 时 才 人 合理, 那些 扩展 性 定律 ”也 只 是 在 某 些 场景 下 才能 很 好 工作 的 简化 模型 。 
有 一 种 说 法 认为 所 有 的 模型 部 是 错误 的 ， 但 有 一 些 模型 还 是 有 用 的 ， 特 别 是 USL 
能 够 帮助 理解 一 些 导 致 扩展 性 差 的 因素 。 
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当 工 作 抽 和 载 和 其 所 运行 的 系统 存在 微妙 的 关系 时 ，USL 理论 可 能 和 失效。 例如， 一 
个 USL 无 法 很 好 建 模 的 常见 情况 是 : 当 集 群 的 总 内 存 由 于 数据 集 大 小 而 发 生 改 变 
时 ， 也 会 导致 系统 的 行为 发 生变 化 。USL 不 允许 比 线性 更 好 的 可 扩展 性 ， 但 现实 
中 可 能 会 发 生 这 样 的 事情 : 增加 系统 的 资源 后 ， 原 来 一 部 分 I/O 密集 型 的 工作 变 成 
了 纯 内 看 工 作 ， 因 此 获得 了 超过 线性 的 性 能 扩展 。 


还 有 一 些 情况 ，USL 无 法 很 好 描述 系统 行为 。 当 系统 或 数据 集 大 小 改变 时 算法 的 


复杂 度 可 能 改变 ， 类 似 这 样 的 情况 下 可 能 就 无 法 建立 模型 (USL 由 0(1) 复杂 度 和 
O(N) 复杂 度 两 部 分 构成 ， 那 么 对 于 诸如 O(logN) 或 者 O(NlogN) 这 样 复杂 度 的 部 分 
呢 ? )。 根 据 一 些 思 考 和 实际 经 验 ， 我 们 可 以 将 USL 扩展 以 履 盖 这 些 比 较 普遍 的 场 
景 中 的 一 部 分 。 但 这 会 将 一 个 简单 并 且 有 用 的 模型 变 得 复杂 并 难以 使 用 。 事 实 上 ， 
它 在 很 多 情况 下 郭 是 很 好 的 ， 足 以 为 你 所 能 想象 到 的 系统 行为 建立 模型 。 这 也 是 为 
什么 我 们 发 现 它 是 在 正确 性 和 有 效 性 之 间 的 一 个 很 好 的 妥协 。 


简单 地 说 : 有 保留 地 使 用 模型 ， 并 且 在 使 用 中 验证 你 的 发 现 。 


11.2 扩展 MySQL 


如 果 将 应 用 所 有 的 数据 简单 地 放 到 单个 MySQL 服务 器 实例 上 ， 则 无 法 很 好 地 扩展 ， 述 
早 会 磁 到 性 能 瓶颈 。 对 于 许多 类 型 的 应 用 ， 传 统 的 解决 方法 是 购买 更 多 强悍 的 机 器 ， 也 
就 是 常 说 的 “垂直 扩展 ”或 者 “向 上 扩展 ”。 另 外 一 个 与 之 相反 的 方法 是 将 任务 分 配 到 

台 计 算 机 上 ， 这 通常 被 称 为 “水 平 扩展 ”或 者 “向 外 扩展 ”。 我 们 将 讨论 如 何 联合 使 
用 向 上 扩展 和 向 外 扩展 的 解决 方案 ， 以 及 如 何 使 用 集群 方案 来 进行 扩展 。 最 后 ， 大 部 分 
应 用 还 会 有 一 些 很 少 或 者 从 不 需要 的 数据 ， 这 些 数据 可 以 被 清理 或 归档 。 我 们 将 这 个 方 
案 称 为 “向 内 扩展 ”， 这 么 取 名 是 为 了 和 其 他 策略 相 匹 配 。 


11.2.1 规划 可 扩展 性 

人 们 通常 只 有 在 无 法 满足 增加 的 负载 时 才 会 考虑 到 可 扩展 性 ， 具 体 表现 为 工作 负载 从 
CPU 密集 型 变 成 1/0 密集 型 ， 并 发 查询 的 竞争 ， 以 及 不 断 增 大 的 延迟 。 主 要 原因 是 查询 
的 复杂 度 增加 或 者 内 存 中 驻 留 着 一 部 分 不 再 使 用 的 数据 或 者 索引 。 你 可 能 看 到 一 部 分 类 
型 的 查询 发 生 改 变 ， 例 如 大 的 查询 或 者 复杂 查询 常常 比 那些 小 的 查询 更 影响 系统 。 


如 果 是 可 扩展 的 应 用 ， 则 可 以 简单 地 增加 更 多 的 服务 器 来 分 担负 载 ， 这 样 就 没有 性 能 问 
题 了 。 但 如 果 不 是 可 扩展 的 ， 你 会 发 现 目 己 将 遭遇 到 无 穷 无 尽 的 问题 。 可 以 通过 规划 可 
扩展 性 来 避免 这 个 问题 。 
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规划 可 扩展 性 最 困难 的 部 分 是 估算 需要 承担 的 负载 到 底 有 多 少 。 这 个 值 不 一 定 非常 精确 ， 
但 必须 在 一 定 的 数量 级 范围 内 。 如 果 估 计 过 高 ， 会 浪费 开发 资源 。 但 如 有 果 低 估 了 ， 则 难 
以 应 付 可 能 的 负载 。 


另外 还 需要 大 致 正确 地 估计 日 程 表 一 一 也 就 是 说 ， 需 要 知道 底线 在 哪里 。 对 于 一 些 应 用 ， 
一 个 简单 的 原型 可 以 很 好 地 工作 几 个 月 ， 从 而 有 时 间 去 筹资 建立 一 个 更 加 可 扩展 的 架构 。 
对 于 其 他 的 一 些 应 用 ， 你 可 能 需要 当前 的 架构 能 够 为 未 来 两 年 提供 足够 的 容量 。 


以 下 问题 可 以 帮助 规划 可 扩展 性 : 


© 应 用 的 功能 完成 了 多 少 ? 许多 建议 的 可 扩展 性 解决 方案 可 能 会 导致 实现 某 些 功能 变 
得 更 加 困难 。 如 果 应 用 的 某 些 核心 功能 还 没有 开始 实现 ， 就 很 难看 出 如 何在 一 个 可 
扩展 的 应 用 中 实现 它们 。 同 样 地 ， 在 知道 这 些 特性 如 何 真实 地 工作 之 前 也 很 难 决定 
使 用 哪 一 种 可 扩展 性 解决 方案 。 

。 预期 的 最 大 负载 是 多 少 ? 应 用 应 当 在 最 大 负载 下 也 可 以 正常 工作 。 如 果 你 的 网 站 和 
Yahoo! News 或 者 Slashdot 的 首页 一 样 ， 会 发 生 什么 呢 ? 即使 不 是 很 热门 的 网 站 ， 
也 同样 有 最 高 负载 。 比 如 ， 对 于 一 个 在 线 零售 商 ， 假 日 期 间 一 一 尤其 是 在 圣诞 前 的 
几 个 星期 一 一 通常 是 负载 达到 襄 峰 的 时 候 。 在 美国 ， 情 人 节 和 母亲 节 前 的 周末 对 王 
在 线 花 店 来 说 也 是 负载 高 蜂 期 。 

。 如果 依赖 系统 的 每 个 部 分 来 分 担负 载 ， 在 某 个 部 分 失效 时 会 发 生 什么 昵 ” 例 如 ， 如 
果 依 赖 备 库 来 分 担 读 负载 ， 当 其 中 一 个 失效 时 ， 是 否 还 能 正常 处 理 请 求 ? 是 否 需 要 
禁用 一 些 功 能 ? 可 以 预先 准备 一 些 空闲 容量 来 防范 这 种 问题 。 


11.2.2 为 扩展 赢得 时 间 


在 理想 情况 下 ， 应 该 是 计划 先行 、 拥 有 足够 的 开发 者 、 有 花 不 完 的 预算 ， 等 等 。 但 现实 
中 这 些 情况 会 很 复杂 ， 在 扩展 应 用 时 常常 需要 做 一 些 妥 协 ， 特 别 是 需要 把 对 系统 大 的 改 
动 推迟 一 段 时 间 再 执行 。 在 深入 MySQL 扩展 的 细 市 前 ， 以 下 是 一 些 可 以 做 的 准备 工作 : 


优化 性 能 
很 多 时 候 可 以 通过 一 个 简单 的 改动 来 获得 明显 的 性 能 提升 ， 例 如 为 表 建 立正 确 的 索 
5 或 从 MyISAM 切换 到 InnoDB 存储 引擎 。 如 采 遇 到 了 性 能 限制 ， 可 以 打开 查询 日 
志 进 行 分 析 ， 详 情 请 参阅 第 3 章 。 
在 修复 了 大 多 数 主 要 的 问题 后 ， 会 到 达 一 个 收益 递减 点 ， 这 时 候 提升 性 能 会 变 得 越 
来 越 困 难 。 每 个 新 的 优化 都 可 能 耗费 更 多 的 精力 但 只 有 很 小 的 提升 ， 并 会 使 应 用 更 
加 复杂 

购买 性 能 更 强 的 硬件 
升级 或 增加 服务 器 在 某 些 场景 下 行 之 有 效 ， 特 别 是 对 处 于 软件 生命 周期 早期 的 应 用 ， 
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购买 更 多 的 服务 器 或 者 增加 内 存 通常 是 个 好 办 法 。 另 一 个 选择 是 尽量 在 一 台 服 务 器 
上 运行 应 用 程序 。 比 起 修改 应 用 的 设计 ， 购 买 更 多 的 硬件 可 能 是 更 实际 的 办 法 ， 特 
别 是 时 间 紧 急 并 且 缺 乏 开发 者 的 时 候 。 


如 果 应 用 很 小 或 者 被 设计 为 便于 利用 更 多 的 硬件 ， 那 么 购买 更 多 的 硬件 应 该 是 行 之 有 效 
的 办 法 。 对 于 新 应 用 这 是 很 普遍 的 ， 因 为 它们 通常 很 小 或 者 设计 合理 。 但 对 于 大 型 的 旧 
应 用 ， 购 买 更 多 硬件 可 能 没什么 效果 ， 或 者 代价 太 高 。 服 务 器 从 1 台 增 加 到 3 台 或 许 算 
不 了 什么 , 但 从 100 台 增 加 到 300 台 就 是 另外 一 回 事 了 一 一 代价 非常 昂贵 。 如 果 是 这 样 ， 
花 一 些 时 间 和 精力 来 尽 可 能 地 提升 现 有 系统 的 性 能 就 很 划算 。 


11.2.3 向 上 扩展 


向 上 扩展 (有 时 也 称 为 垂直 扩展 ) 意味 着 购买 更 多 性 能 强悍 的 硬件 ， 对 很 多 应 用 来 说 这 
是 唯一 需要 做 的 事情 。 这 种 策略 有 很 多 好 处 。 例 如 ， 单 台 服 务 器 比 多 台 服 务 器 更 加 容易 
维护 和 开发 ， 能 显著 节约 开销 。 在 单 台 服务 器 上 备份 和 恢复 应 用 同样 很 简单 ， 因 为 无 须 
关心 一 致 性 或 者 哪个 数据 集 是 权威 的 。 当 然 ， 还 有 一 些 别 的 原因 。 从 复杂 性 的 成 本 来 说 ， 
向 上 扩展 比 向 外 扩展 更 简单 。 


向 上 扩展 的 空间 其 实 也 很 大 。 拥 有 0.5TB 内 存 、32 核 (或 者 更 多 ) CPU 以 及 更 强悍 I/O 
性 能 的 (例如 PCIe 卡 的 flash 存储 ) 商用 服务 器 现在 很 容易 获得 。 优 秀 的 应 用 和 数据 库 
设计 ， 以 及 很 好 的 性 能 优化 技能 ， 可 以 帮助 你 在 这 样 的 服务 器 上 建立 一 个 MySQL 大 型 
应 用 。 


在 现代 硬件 上 MySQL 能 扩展 到 多 大 的 规模 呢 ? 尽管 可 以 在 非常 强大 的 服务 器 上 运行 ， 
但 和 大 多 数 数 据 库 服务 器 一 样 ， 在 增加 硬件 资源 的 情况 下 MySQL 也 无 法 很 好 地 扩展 
(非常 奇怪 ! )。 为 了 更 好 地 在 大 型 服务 器 上 运行 MySQL， 一 定 要 尽量 选择 最 新 的 版 本 。 
由 于 内 部 可 扩展 性 问题 ，MySQL 5.0 和 5.1 在 大 型 硬件 里 的 表现 并 不 理想 。 建 议 使 用 
MySQL 5.5 或 者 更 新 的 版 本 ， 或 者 Percona Server 5.1 及 后 续 版 本 。 即 便 如 此 ， 当 前 合理 
的 “收益 递减 点 ”的 机 器 配置 大 约 是 256GB RAM，32 核 CPU 以 及 一 个 PCIe flash 驱动 
器 。 如 果 继 续 提 升 硬 件 的 配置 ，MySQL 的 性 能 虽然 还 能 有 所 提升 ， 但 性 价 比 就 会 降低 ， 
实际 上 ， 在 更 强大 的 系统 上 ， 也 可 以 通过 运行 多 个 小 的 MySQL 实例 来 蔡 代 单 个 大 实例 ， 
这 样 可 以 获得 更 好 的 性 能 。 当 然 ， 机 器 配置 的 变化 速度 非常 快 ， 这 个 建议 也 许 很 快 就 会 
过 时 了 。 


向 上 扩展 的 策略 能 够 顶 一 段 时 间 ， 实 际 很 多 应 用 是 不 会 达到 天 化 板 的 。 但 是 如 有 果 应 用 变 
得 非常 庞大 :“， 向 上 扩展 可 能 就 没有 办 法 了 。 第 一 个 原因 是 钱 ， 无 论 服务 器 上 运行 什么 


注 6: ANNE RE AAS “weby Æ” (web scale), HAC CHERSLEX, KR http:/wwwxtranormal. 
com/ watch/6995033/, 
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样 的 软件 ， 从 某 种 角度 来 看 ， 向 上 扩展 都 是 个 精 糕 的 财务 决策 ， 当 超出 硬件 能 够 提供 的 
最 优 性 价 比 时 ， 就 会 需要 非 同 寻常 的 特殊 配置 的 硬件 ， 这 样 的 硬件 往往 非常 昂贵 。 这 意 
味 着 能 向 上 扩展 到 什么 地 步 是 有 实际 的 限制 的 。 如 果 使 用 了 复制 ， 那 么 当主 库 升 级 到 高 
端 硬件 后 ， 一 般 是 不 太 可 能 配置 出 一 台 能 够 跟 上 主 库 的 强大 备 库 的 。 一 个 高 负载 的 主 库 
通常 可 以 承担 比 拥有 同样 配置 的 备 库 更 多 的 工作 ， 因 为 备 库 的 复制 线程 无 法 高 效 地 利用 
多 核 CPU 和 磁盘 资源 。 


最 后 ， 向 上 扩展 不 是 无 限制 的 ， 即 使 最 强大 的 计算 机 也 有 限制 。 单 服务 器 应 用 通 弟 会 
先 达到 读 限制 ,特别 是 执行 复杂 的 读 查询 时 。 类 似 这 样 的 查询 在 MySQL 内 部 是 单线 程 的 ， 
因此 只 能 使 用 一 个 CPU， 这 种 情况 下 花 钱 也 无 法 提升 多 少 性 能 。 即 使 购买 最 快 的 CPU 
也 仅仅 会 是 商用 CPU 的 几 倍 速度 。 增 加 更 多 的 CPU 或 CPU 核 数 并 不 能 使 慢 查 询 执行 得 
更 快 。 当 数据 变 得 庞大 以 至 于 无 法 有 效 缓存 时 ， 内 存 也 会 成 为 瓶颈 ， 这 通常 表现 为 很 吉 
的 磁盘 使 用 率 ， 而 磁盘 是 现代 计算 机 中 最 慢 的 部 分 。 


无 法 使 用 向 上 扩展 最 明显 的 场景 是 云 计算 。 在 大 多 数 公有 云 中 都 无 法 获得 性 能 非常 强 的 
服务 器 ， 如 果 应 用 肯定 会 变 得 非常 庞大 ， 就 不 能 选择 向 上 扩展 的 方式 。 在 第 13 章 我 们 
会 深入 这 个 话题 。 


因此 ， 我 们 建议 ， 如 果 系 统 确实 有 可 能 碰 到 可 扩展 性 的 天 花 板 ， 并 且 会 导致 严重 的 业务 
问题 ， 那 就 不 要 无 限制 地 做 向 上 扩展 的 规划 。 如 果 你 知道 应 用 会 变 得 很 庞大 ， 在 实现 男 
外 一 种 解决 方案 前 ， 短 期 内 购买 更 优 的 服务 器 是 可 以 的 。 但 是 最 终 还 是 需要 问 外 扩展 ， 
这 也 是 下 一 市 我 们 要 讲述 的 主题 。 


11.2.4 向 外 扩展 


可 以 把 向 外 扩展 (有 时 也 称 为 横向 扩展 或 者 水 平 扩 展 ) 策略 划分 为 三 个 部 分 :复制 . 拆 分 ， 
以 及 数据 分 片 (sharding)。 


最 简单 也 最 常见 的 向 外 扩展 的 方法 是 通过 复制 将 数据 分 发 到 多 个 服务 器 上 ， 然 后 将 备 库 
用 于 读 查 询 。 这 种 技术 对 于 以 读 为 主 的 应 用 很 有 效 。 它 也 有 一 些 缺 后 ， 例 如 重复 缓存 ， 
但 如 果 数 据 规模 有 限 这 就 不 是 问题 。 关 于 这 些 问 题 我 们 在 前 一 章 已 经 讨论 得 足够 多 ， 后 
面 会 继续 提 到 。 


另外 一 个 比较 常见 的 向 外 扩展 方法 是 将 工作 负载 分 布 到 多 个 “市 各 。 上 有 具体 如 何 分 布 工 
作 负 载 是 一 个 复杂 的 话题 。 许 多 大 型 的 MySQL 应 用 不 能 自动 分 布 负载 ， 就 算 有 也 没有 
做 到 完全 的 自动 化 。 本 节 我 们 会 讨论 一 些 可 能 的 分 布 负载 的 方案 ， 并 探讨 它们 的 优点 和 


在 MySQL 架构 中 ,一 个 节点 (node) 就 是 一 个 功能 部 件 。 如 果 没 有 规划 元 余 和 高 可 用 性 ， 
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市 后 通常 可 能 是 下 面 的 某 一 种 : 


。 一 个 主 一 主 复制 双 机 结构 ， 拥 有 一 个 主动 服务 器 和 被 动 服务 器 。 

。 一 个 主 库 和 多 个 备 库 。 

。 ”一 个 主动 服务 器 ， 并 使 用 分 布 式 复制 块 设备 (DRBD) 作为 备用 服务 器 。 
。 一 个 基于 存储 区 域 网 络 (SAN) 的 “集群 ”。 


大 多 数 情况 下 ， 一 个 市 点 内 的 所 有 服务 器 应 该 拥有 相同 的 数据 。 我 们 倾向 于 把 主 一 主 复 
制 架 构 作 为 两 台 服 务 器 的 主动 一 被 动 市 点 。 


1. 按 功能 拆 分 

按 功 能 拆 分 ， 或 者 说 按 职责 拆 分 ， 意 味 着 不 同 的 节点 执行 不 同 的 任务 。 我 们 之 前 已 经 提 
到 了 一 些 类 似 的 实现 ， 在 前 一 章 我 们 描述 了 如 何 为 OLTP 和 OLAP 工作 负载 设计 不 同 的 
服务 器 。 按 功能 拆 分 采取 的 策略 比 这 些 更 进一步 ， 将 独立 的 服务 器 或 节点 分 配给 不 同 的 
应 用 ， 这 样 每 个 节点 只 包含 它 的 特定 应 用 所 需要 的 数据 。 


这 里 我 们 显 式 地 使 用 了 “应 用 ”一 词 。 所 指 的 并 不 是 一 个 单独 的 计算 机 程序 ， 而 是 相关 
的 一 系列 程序 ， 这 些 程序 可 以 很 容易 地 彼此 分 离 ， 没 有 关联 。 例 如 ， 如 有 果 有 一 个 网 站 ， 
各 个 部 分 无 须 共享 数据 ， 那 么 可 以 按照 网 站 的 功能 区 域 进行 划分 。 门 户 网 站 常常 把 不 同 
的 栏目 放 在 一 起 ;在 门户 网 站 ,可 以 浏览 网 站 新 闻 、 论 坛 , 寻求 支持 和 访问 知识 库 , 等 等 。 
这 些 不 同 功 能 区 域 的 数据 可 以 放 到 专用 的 MySQL 服务 器 中 ， 如 图 11-5 所 示 。 
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图 11-5: 一 个 门户 网 站 以 及 专用 于 不 同 功能 区 域 的 节点 
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如 果 应 用 很 庞大 ， 每 个 功能 区 域 还 可 以 拥有 其 专用 的 Web 服务 器 ， 但 没有 专用 的 数据 库 
服务 器 这 么 常见 。 | 


另 一 个 可 能 的 按 功能 划分 方法 是 对 单个 服务 器 的 数据 进行 划分 ， 并 确保 划分 的 表 集 合 之 
间 不 会 执行 关联 操作 。 当 必须 执行 关联 操作 时 ， 如 果 对 性 能 要 求 不 高 ， 可 以 在 应 用 中 做 
关联 。 虽 然 有 一 些 变通 的 方法 ， 但 它们 有 一 个 共同 点 ， 就 是 每 种 类 型 的 数据 只 能 在 单个 
节点 上 找到 。 这 并 不 是 一 种 通用 的 分 布 数 据 方法 ， 因 为 很 难 做 到 高 效 ， 并 且 相 比 其 他 方 
案 没 有 任何 优势 。 


归根 结 底 ， 还 是 不 能 通过 功能 划分 来 无 限 地 进行 扩展 ， 因 为 如 果 一 个 功能 区 域 被 捆绑 到 
单个 MySQL 节点 ， 就 只 能 进行 垂直 扩展 。 其 中 的 一 个 应 用 或 者 功能 区 域 最 终 增长 到 非 
常 庞大 时 ， 都 会 迫使 你 去 寻求 一 个 不 同 的 策略 。 如 果 进 行 了 太 多 的 功能 划分 ， 以 后 就 很 
难 采用 更 具 扩展 性 的 设计 了 。 


2 数据 分 片 
在 目前 用 于 扩展 大 型 MySQL 应 用 的 方案 中 ， 数 据 分 片 和 ”是 最 通用 且 最 成 功 的 方法 。 它 
把 数据 分 割 成 一 小 片 ， 或 者 说 一 块 ， 然 后 存储 到 不 同 的 证 点 中 。 


数据 分 片 在 和 某 些 类 型 的 按 功 能 划分 联合 使 用 时 非常 有 用 。 大 多 数 分 片 系统 也 有 一 些 全 
局 的 ”数据 不 会 被 分 片 (例如 城市 列表 或 者 登录 数据 )。 全 局 数据 一 般 存储 在 单个 节点 上 ， 
并 且 通 常 保存 在 类 似 memcached 这 样 的 缓存 里 。 


事实 上 ， 大 多 数 应 用 只 会 对 需要 的 数据 做 分 片 一 一 通常 是 那些 将 会 增长 得 非常 庞大 的 数 
据 。 假 设 正 在 构建 的 博客 服务 ,预计 会 有 1000 万 用 户 ,这 时 候 就 无 须 对 注册 用 户 进行 分 片 ， 
因为 完全 可 以 将 所 有 的 用 户 〈 或 者 其 中 的 活跃 用 户 ) 放 到 内 存 中 。 假 如 用 户 数 达到 5 亿 ， 
那么 就 可 能 需要 对 用 户 数据 分 片 。 用 户 产 生 的 内 容 ， 例 如 发 表 的 文章 和 评论 ， 几 平 肯定 
需要 进行 数据 分 片 ， 因 为 这 些 数据 非常 庞大 ， 并 且 还 会 越 来 越 多 。 

大 型 应 用 可 能 有 多 个 逻辑 数据 集 ， 并 且 处 理 方式 也 可 以 各 不 相同 。 可 以 将 它们 存储 到 不 
同 的 服务 器 组 上 ， 但 这 并 不 是 必需 的 。 还 可 以 以 多 种 方式 对 数据 进行 分 片 ， 这 取决 于 如 
何 使 用 它们 。 下 文 我 们 会 举例 说 明 。 

分 片 技术 和 大 多 数 应 用 的 最 初 设计 有 着 显著 的 差异 ， 并 且 很 难 将 应 用 从 单一 数据 存储 转 
换 为 分 片 架 构 。 如 果 在 应 用 设计 初期 就 已 经 预计 到 分 片 ， 那 实现 起 来 就 容易 得 多 。 


许多 一 开始 没有 建立 分 片 架构 的 应 用 都 会 碰 到 规模 扩大 的 情形 。 例 如 ， 可 以 使 用 复制 来 
扩展 博客 服务 的 读 查 询 , 直 到 它 不 再 奏效 。 然 后 可 以 把 服务 器 划分 为 三 个 部 分 :用 户 信息 、 


注 7: 分 片 也 被 称 为 “分 裂 "、“ 分 区 "， 但 是 我 们 使 用 “分 片 ” 以 避免 混 消 。 谷 歌 将 它 称 为 “分 片 ， 如 
果 谷 歌 觉 得 这 样 称呼 合适 ， 我 们 采取 这 种 称呼 也 就 合适 了 。 
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文章 ， 以 及 评论 。 可 以 将 这 些 数据 放 到 不 同 的 服务 器 上 ( 按 功能 划分 ) ， 也 许可 以 使 用 
面 同 服务 的 架构 ， 并 在 应 用 层 执 行 联合 查询 。 图 11-6 显示 了 从 单 台 服 务 器 到 按 功能 划分 
的 演变 。 
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图 11-6: 从 单个 实例 到 按 功能 划分 的 数据 存储 


最 后 ， 可 以 通过 用 户 ID 来 对 文章 和 评论 进行 分 片 ， 而 将 用 户 信 息 保 留 在 单个 节点 上 。 
如 果 为 全 局 节点 配置 一 个 主 一 备 结构 并 为 分 片 节点 使 用 主 一 主 结构 ， 最 终 的 数据 存储 可 
能 如 图 11-7 所 示 。 


分 片 数据 存储 





图 11-7: 一 个 全 局 节点 和 六 个 主 一 主 结构 节点 的 数据 存储 方式 


如 果 事先 知道 应 用 会 扩大 到 很 大 的 规模 ， 并 且 清 楚 按 功能 划分 的 局 限 性 ， 就 可 以 跳 过 中 
间 步 又 ， 直 接 从 单个 节点 升级 为 分 片 数据 存储 。 事 实 上 ， 这 种 前 瞻 性 可 以 帮 你 避免 由 于 
粗糙 的 分 片 方案 带 来 的 挑战 。 


采用 分 请 的 应 用 和 会 有 一 个 数据 库 访问 抽象 层 ， 用 以 降低 应 用 和 分 片 数据 存储 之 间 通 信 
的 复杂 度 ， 但 无 法 完全 隐藏 分 片 。 因 为 相 比 数据 存储 ， 应 用 通常 更 了 解 跟 查询 相关 的 一 
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些 信息 。 太 多 的 抽象 会 导致 低 效率 ， 例 如 查询 所 有 的 节点 ， 可 实际 上 需要 的 数据 只 在 单 
一 节点 上 。 


分 片 数 据 存储 看 起 来 像 是 优雅 的 解决 方案 ， 但 很 难 实现 。 那 为 什么 要 选择 这 个 架构 呢 ? 
答案 很 简单 : 如 果 想 扩展 写 容量 ， 就 必须 切 分 数据 。 如 果 只 有 单 台 主 库 ， 那 么 不 管 有 多 
少 备 库 ， 写 容量 都 是 无 法 扩展 的 。 对 于 上 述 缺 点 而 言 ， 数 据 分 片 是 我 们 首选 的 解决 方案 。 


分 片 ? 还 是 不 分 片 ? 


这 是 一 个 问题 ， 对 吧 ? 答案 很 简单 : 如 非 必 要 ， 尽 量 不 分 片 。 首 先 看 是 否 能 通过 性 
能 调 优 或 者 更 好 的 应 用 或 数据 库 设 计 来 推迟 分 片 。 如 果 能 足够 长 时 间 地 推迟 分 片 ， 
也 许可 以 直接 购买 更 大 的 服务 器 ， 升 级 MySQL 到 性 能 更 优 的 版 本 ， 然 后 继续 使 用 
单 台 服务 器 ， 也 可 以 增加 或 减少 复制 。 


简单 的 说 ， 对 单 台 服务 器 而 言 ， 数 据 大 小 或 写 负载 变 得 太 大 时 ， 分 片 将 是 不 可 避免 
的 。 如 果 不 分 片 ， 而 是 尽 可 能 地 优化 应 用 ， 系 统 能 扩展 到 什么 程度 呢 ? 答案 可 能 会 
让 你 很 惊讶 。 有 些 非 常 受 欢迎 的 应 用 ， 你 可 能 以 为 从 一 开始 就 分 片 了 ， 但 实际 上 直 
到 已 经 值 数 十 亿美 元 并 且 流 量 极其 巨大 也 还 没有 采用 分 片 的 设计 。 分 片 不 是 城 里 唯 
一 的 游戏 ， 在 没有 必要 的 情况 下 采用 分 片 的 架构 来 构建 应 用 会 步履 维 艰 。 





3. 选择 分 区 键 (partitioning key) 


数据 分 片 最 大 的 挑战 是 查找 和 获取 数据 : 如 何 查找 数据 取决 于 如 何 进行 分 片 。 有 很 多 方 
法 ， 其 中 有 一 些 方法 会 比 另 外 一 些 更 好 。 


我 们 的 目标 是 对 那些 最 重要 并 且 频 繁 查询 的 数据 减少 分 片 ( 记 住 ， 可 扩展 性 法 则 的 其 中 
一 条 就 是 要 避免 不 同市 把 间 的 交互 )。 这 其 中 最 重要 的 是 如 何 为 数据 选择 一 个 或 多 个 分 
区 键 。 分 区 键 决定 了 每 一 行 分 配 到 哪 一 个 分 片 中 。 如 采 知 道 一 个 对 象 的 分 区 键 ， 就 可 以 
回答 如 下 两 个 问题 : : 


。 应 该 在 哪里 存储 数据 ? 
。 应 该 从 哪里 取 到 希望 得 到 的 数据 ? 


后 面 将 展示 多 个 选择 和 使 用 分 区 键 的 方法 。 先 看 一 个 例子 。 假 设 像 MySQL NDB Cluster 
那样 来 操作 ， 并 对 每 个 表 的 主键 使 用 哈 希 来 将 数据 分 割 到 各 个 分 片 中 。 这 是 一 种 非常 向 
单 的 实现 , 但 可 扩展 性 不 好 ， 因 为 可 能 需要 频繁 检查 所 有 分 片 来 获得 需要 的 数据 。 例 如 ， 
如 果 想 查看 user3 的 博客 文章 ， 可 以 从 哪里 找到 呢 ? 由 于 使 用 主键 值 而 非 用 户 名 进行 分 
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割 ， 博 客 文章 可 能 均匀 分 散在 所 有 的 数据 分 片 中 。 使 用 主键 值 哈 希 简化 了 判断 数据 存储 
在 何 处 的 操作 ,但 却 可 能 增加 获取 数据 的 难度 ， 具 体 取决 于 需要 什么 数据 以 及 是 否 知道 
主键 。 


跨 多 个 分 片 的 查询 比 单个 分 片上 的 查询 性 能 要 差 ， 但 只 要 不 涉及 太 多 的 分 片 ， 也 不 会 太 
精 糕 。 最 糟糕 的 情况 是 不 知道 需要 的 数据 存储 在 哪里 ， 这 时 候 就 需要 扫描 所 有 分 片 。 


一 个 好 的 分 区 键 常 常 是 数据 库 中 一 个 非常 重要 的 实体 的 主键 。 这 些 键 值 决定 了 分 片 单元 。 
例如 ， 如 果 通 过 用 户 ID 或 客户 端 ID 来 分 割 数据 ， 分 片 单元 就 是 用 户 或 者 客户 端 。 


确定 分 区 键 一 个 比较 好 的 办 法 是 用 实体 一 关系 图 ， 或 一 个 等 效 的 能 显示 所 有 实体 及 其 关 
系 的 工具 来 展示 数据 模型 。 尽 量 把 相关 联 的 实体 靠 得 更 近 。 这 样 可 以 很 直观 地 找 出 候选 
分 区 键 。 当 然 不 要 仅仅 看 图 ， 同 样 也 要 孝 虑 应 用 的 查询 。 即 使 两 个 实体 在 某 些 方面 是 相 
关联 的 ， 但 如 采 很 少 或 几乎 不 对 其 做 关联 操作 ， 也 可 以 打 断 这 种 联系 来 实现 分 片 。 


某 些 数据 模型 比 其 他 的 更 容易 进行 分 片 ， 具 体 取决 于 实体 一 关系 图 中 的 关联 性 程度 。 图 
11-8 的 左边 展示 了 一 个 易于 分 片 的 数据 模型 ， 右 边 的 那个 则 很 难 分 片 。 


A 


cs = 


an : ss 


pe = 
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图 11-8: 两 个 数据 模型 ， 一 个 易于 分 片 ， 另 一 个 则 难以 分 片 


左边 的 数据 模型 比较 容易 分 片 ， 因 为 与 之 相连 的 子 图 中 大 多 数 市 点 只 有 一 个 连接 ， 很 容 
易 切 断 子 图 之 间 的 联系 。 右 边 的 数据 模型 则 很 难 分 片 ， 因 为 它 没 有 类 似 的 子 图 。 验 好 大 
多 数 数据 模型 更 像 左 边 的 图 。 


选择 分 区 键 的 时 候 ， 尽 可 能 选择 那些 能 够 避免 跨 分 片 查 询 的 ， 但 同时 也 要 让 分 片 足够 小 ， 
以 免 过 大 的 数据 片 导致 问题 。 如 果 可 能 ， 应 该 期 望 分 片 尽 可 能 同样 小 ， 这 样 在 为 不 同 数 
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量 的 分 片 进行 分 组 时 能 够 很 容易 平衡 。 例 如 ， 如 果 应 用 只 在 美国 使 用 ， 并 且 和 希望 将 数据 
集 分 割 为 20 个 分 片 ， 则 可 能 不 应 该 按照 州 来 划分 ， 因 为 加 利 福 尼 亚 的 人 口 非常 多 。 但 
可 以 按照 县 或 者 电话 区 号 来 划分 ， 因 为 尽管 并 不 是 均匀 分 布 的 ， 但 足以 选择 20 个 集合 
以 粗略 地 表示 等 同 的 密集 程度 ， 并 且 基 本 上 避免 跨 分 片 查 询 。 


4. 多 个 分 区 键 

复杂 的 数据 模型 会 使 数据 分 片 更 加 困难 。 许 多 应 用 拥有 多 个 分 区 键 ， 特 别 是 存在 两 个 或 
更 多 个 “维度 ”的 时 候 。 换 句 话 说， 应 用 需要 从 不 同 的 角度 看 到 有 效 且 连贯 的 数据 视图 。 
这 意味 着 某 些 数据 在 系统 内 至 少 需要 存储 两 份 。 


例如 ， 需 要 将 博客 应 用 的 数据 按照 用 户 ID 和 文章 ID 进行 分 片 ， 因 为 这 两 者 都 是 应 用 查 
询 数据 时 使 用 比较 普遍 的 方式 。 试 想 一 下 这 种 情形 : 频繁 地 读 取 某 个 用 户 的 所 有 文章 ， 
以 及 某 个 文章 的 所 有 评论 。 如 果 按 用 户 分 片 就 无 法 找到 某 篇 文章 的 所 有 评论 ， 而 按 文章 
分 片 则 无 法 找到 某 个 用 户 的 所 有 文章 。 如 果 和 希望 这 两 个 查询 都 落 到 同一 个 分 片上 ， 就 需 
要 从 两 个 维度 进行 分 片 。 


需要 多 个 分 区 键 并 不 意味 着 需要 去 设计 两 个 完全 宛 余 的 数据 存储 。 我 们 来 看 看 另 一 个 例 
子 ; 一 个 社交 网 站 下 的 读书 俱乐部 站 点 ， 该 站 点 的 所 有 用 户 都 可 以 对 书 进行 评论 。 该 网 
站 可 以 显示 所 有 书籍 的 所 有 评论 ， 也 能 显示 某 个 用 户 已 经 读 过 或 评论 过 的 所 有 书籍 。 


假设 为 用 户 数据 和 书籍 数据 都 设计 了 分 片 数 据 存储 。 而 评论 同时 拥有 用 户 ID 和 评论 ID, 
这 样 就 跨越 了 两 个 分 片 的 边界 。 实 际 上 却 无 须 元 余 存 储 两 份 评论 数据 ， 替 代 方 案 是， 将 
评论 和 用 户 数据 一 起 存储 ， 然 后 把 每 个 评论 的 标题 和 ID 与 书籍 数据 存储 在 一 起 。 这 样 
在 泻 染 大 多 数 关于 某 本 书 的 评论 的 视图 时 无 须 同时 访问 用 户 和 书籍 数据 存储 ， 如 果 需 要 
显示 完整 的 评论 内 容 ， 可 以 从 用 户 数 据 存储 中 获得 。 


5. 跨 分 片 查询 

大 多 数 分 片 应 用 多 少 都 有 一 些 查询 需要 对 多 个 分 片 的 数据 进行 聚合 或 关联 操作 。 例 如 ， 
一 个 读书 俱乐部 网 站 要 显示 最 受 欢迎 或 最 活跃 的 用 户 ， 就 必须 访问 每 一 个 分 片 。 如 何 让 
这 类 查询 很 好 地 执行 ， 是 实现 数据 分 片 的 架构 中 最 困难 的 部 分 。 虽 然 从 应 用 的 角度 来 看 ， 
这 是 一 条 查询 ， 但 实际 上 需要 拆 分 成 多 条 并 行 执 行 的 查询 ， 每 个 分 片上 执行 一 条 。 一 个 
设计 良好 的 数据 库 抽 象 层 能 够 减轻 这 个 问题 ， 但 类 似 的 查询 仍然 会 比分 片 内 查询 要 慢 并 
且 更 加 昂贵 ， 所 以 通常 会 更 加 依赖 缓存 。 


一 些 语言 ， 如 PHP， 对 并 行 执行 多 条 查询 的 支持 不 够 好 。 普 遍 的 做 法 是 使 用 C Java 
编写 一 个 辅助 应 用 来 执行 查询 并 聚合 结果 集 。PHP 应 用 只 需要 查询 该 辅助 应 用 即 可 ， 例 
如 Web 服务 或 者 类 似 Gearman 的 工作 者 服务 。 
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分 片上 元 余 存 储 。 如 果 在 每 个 分 片上 存储 重复 数据 太 过 浪费 ， 也 可 以 把 汇总 表 放 到 另外 
一 个 数据 存储 中 ， 这 样 就 只 需要 存储 一 份 了 。 


未 分 廊 的 数据 通常 存储 在 全 局 节点 中 ， 可 以 使 用 缓存 来 分 担负 载 。 


如 果 数 据 的 均衡 分 布 非常 重要 ， 或 者 没有 很 好 的 分 区 键 ， 一 些 应 用 会 采用 随机 分 片 的 方 
式 。 分 布 式 检索 应 用 就 是 个 很 好 的 例子 。 这 种 场景 下 ， 跨 分 片 查询 和 聚合 查询 非常 常见 。 


跨 分 片 查询 并 不 是 数据 分 片面 临 的 唯一 难题 。 维 护 数据 一 致 性 同样 困难 。 外 键 无 法 在 分 
片 间 工作 ， 因 此 需要 由 应 用 来 检查 参照 一 致 性 ， 或 者 只 在 分 片 内 使 用 外 键 ， 因 为 分 片 内 
的 内 部 一 致 性 可 能 是 最 重要 的 。 还 可 以 使 用 XA 事务 ,但 由 于 开销 太 大 ,现实 中 使 用 很 少 。 


还 可 以 设计 一 些 定期 执行 的 清理 过 程 。 例 如 ， 如 果 一 个 用 户 的 读书 俱乐部 账号 到 期 ， 并 
不 需要 立刻 将 其 移 除 。 可 以 写 一 个 定期 任务 将 用 户 评论 从 每 个 书籍 分 片 中 移 除 。 也 可 以 
写 一 个 检查 脚本 周期 性 运行 以 确保 分 片 间 的 数据 一 致 性 。 


6. 分配 数 据 、 分 片 和 节点 
分 片 和 节点 不 一 定 是 一 对 一 的 关系 ， 应 该 尽 可 能 地 让 分 片 的 大 小 比 节点 容量 小 很 多 ， 这 
样 就 可 以 在 单个 节点 上 存储 多 个 分 片 。 


保持 分 片 足够 小 更 容易 管理 。 这 将 使 数据 的 备份 和 恢复 更 加 容易 ， 如 果 表 很 小 ， 那 么 像 


更 改 表 结构 这 样 的 操作 会 更 加 容易 。 例 如 ， 假 设 有 一 个 100GB 的 表 ， 你 可 以 直接 存储 ， 


也 可 以 将 其 划分 为 100 个 1GB 的 分 上 请， 并 存储 在 单个 节点 上 。 现 在 假如 要 向 表 上 增加 
一 个 索引 ， 在 单个 100GB 的 表 上 的 执行 时 间 会 比 100 个 1GB 分 片上 执行 的 总 时 间 更 长 ， 
因为 1GB 的 分 片 更 容易 全 部 加 载 到 内 存 中 。 并 且 在 执行 ALTER TABLE 时 还 会 导致 数 
据 不 可 用 ， 阻 塞 1GB 的 数据 比 阻 塞 100GB 的 数据 要 好 得 多 。 


小 一 点 的 分 片 也 便于 转移 。 这 有 助 于 重新 分 配 容量 ， 平 衡 各 个 节点 的 分 片 。 转 移 分 片 的 
效率 一 般 都 不 高 。 通 常 需要 先 将 受 影响 的 分 片 设置 为 只 读 模式 (这 也 是 需要 在 应 用 中 构 
建 的 特性 ) HERAT, ARBEIT DR. KEE mysqldump 获取 数据 然 
后 使 用 mysql 命令 将 其 重新 导入 。 如 果 使 用 的 是 Percona Server， 可 以 通过 XtraBackup 
在 服务 器 间 转 移 文件 ， 这 上 比 转 储 和 重新 载 入 要 高 效 得 多 。 


除了 在 市 点 间 移 动 分 片 ， 你 可 能 还 需要 芳 虑 在 分 片 间 移动 数据 ， 并 尽量 不 中 断 整 个 应 用 
提供 服务 。 如 果 分 片 太 大 ， 就 很 难 通 过 移动 整个 分 片 来 平衡 容量 ， 这 时 候 可 能 需要 将 一 
部 分 数据 (例如 一 个 用 户 ) 转移 到 其 他 分 片 。 分 片 间 转移 数据 比 转移 分 片 要 更 复杂 ， 应 
该 尽量 避免 这 么 做 。 这 也 是 我 们 建议 设置 分 片 大 小 尽量 易于 管理 的 原因 之 一 。 
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分 片 的 相对 大 小 取决 于 应 用 的 需求 。 简 单 的 说 ， 我 们 说 的 “易于 管理 的 大 小 ”是 指 保 
持 表 足够 小 ， 以 便 能 在 5 或 10 分 钟 内 提供 日 常 的 维护 工作 ， 例 如 ALTER TABLE, CHECK 
TABLE 或 者 OPTIMIZE TABLE. 


如 果 将 分 片 设置 得 太 小 ， 会 产生 太 多 的 表 ， 这 可 能 引发 文件 系统 或 MySQL 内 部 结构 的 
问题 。 另 外 太 小 的 分 片 还 会 导致 跨 分 片 查 询 增 多 。 


7. 在 节点 上 部 署 分 片 
需要 确定 如 何在 节点 上 部 署 数据 分 片 。 以 下 是 一 些 常用 的 办 法 : 
。 每 个 分 片 使 用 单一 数据 库 ， 并 且 数 据 库 名 要 相同 。 典 型 的 应 用 场景 是 需要 每 个 分 片 


都 能 镜像 到 原 应 用 的 结构 。 这 在 部 署 多 个 应 用 实例 ， 并 且 每 个 实例 对 应 一 个 分 片 时 
很 有 用 。 


o ”将 多 个 分 片 的 表 放 到 一 个 数据 库 中 ， 在 每 个 表 名 上 包含 分 片 号 (例如 bookclub. 


comments_23)。 这 种 配置 下 ， 单 个 数据 库 可 以 支持 多 个 数据 分 片 。 

。 ”为 每 个 分 片 使 用 一 个 数据 库 ， 并 在 数据 库 中 包含 所 有 应 用 需要 的 表 。 在 数据 库 名 中 
包含 分 片 号 (例如 表 名 可 能 是 bookcLub 23.comments 或 者 bookclub 23.users 等 )， 
但 表 名 不 包 插 分 片 号 。 当 应 用 连接 到 单个 数据 库 并 且 不 在 查询 中 指定 数据 库 名 时 ， 
这 种 做 法 很 常见 。 其 优点 是 无 须 为 每 个 分 片 专门 编写 查询 ， 也 便于 对 只 使 用 单个 数 
据 库 的 应 用 进行 分 片 。 

。 每 个 分 片 使 用 一 个 数据 库 ， 并 在 数据 库 名 和 表 名 中 包含 分 片 号 (例如 表 名 可 以 是 
bookclub 23.comments 23). 

© 在 每 个 市 点 上 运行 多 个 MySQL 实例 ， 每 个 实例 上 有 一 个 或 多 个 分 片 ， 可 以 使 用 上 
面 提 到 的 方式 的 任意 组 合 来 安排 分 片 。 


如 采 在 表 名 中 包含 了 分 片 号 ， 就 需要 在 查询 模板 里 插入 分 片 号 。 常 用 的 方法 是 在 查询 中 


使 用 特殊 的 “神奇 的 ” 占 位 符 ， 例 如 sprintf() 这 样 的 格式 化 函数 中 的 %s， 或 者 使 用 变 
量 做 字符 串 插 值 。 以 下 是 在 PHP 中 创建 查询 模板 的 方法 : 


$sql = "SELECT book_id, book title FROM bookclub %d.comments %d... "; 
$res = mysql query(sprintf($sql, $shardno, $shardno), $conn); 


也 可 以 就 使 用 字符 串 播 值 的 方法 : 


$sql = "SELECT book id, book title FROM bookclub $shardno.comments $shardno ..."; 
$res = mysql_query($sql, $conn); 


这 在 新 应 用 中 很 容易 实现 ， 但 对 于 已 有 的 应 用 则 有 点 困难 。 构 建新 应 用 时 ， 查 询 模板 并 
不 是 问题 ， 我 们 倾向 于 使 用 每 个 分 片 一 个 数据 库 的 方式 ， 并 把 分 片 号 写 到 数据 库 名 和 表 
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名 中 。 这 会 增加 例如 ALTER TABLE 这 类 操作 的 复杂 度 ， 但 也 有 如 下 一 些 优点 : 


。 ”如 采 分 片 全 部 在 一 个 数据 库 中 ， 转 移 分 片 会 比较 容易 。 

。 因为 数据 库 本 身 是 文件 系统 中 的 一 个 目录 ， 所 以 可 以 很 方便 地 管理 一 个 分 片 的 文件 。 

。 如 本 分 毛 互 不 关联 ， 则 很 容易 查看 分 片 的 大 小 。 

。 ”全 局 唯一 表 名 可 避免 误 操 作 。 如 果 表 名 每 个 地 方 都 相同 ， 很 容易 因为 连接 到 错误 的 
市 后 而 查询 了 错误 的 分 片 ， 或 者 是 将 一 个 分 片 的 数据 误导 入 另外 一 个 分 片 的 表 中 。 


你 可 能 想 知道 应 用 的 数据 是 否 具有 某 种 “分 片 亲 和 性 ” 。 也 许 将 某 些 分 片 放 在 一 起 (在 
同一 台 服 务 器 ， 同 一 个 子 网 ， 同 一 个 数据 中 心 ， 或 者 同一 个 交换 网 络 中 ) 可 以 利用 数据 
访问 模式 的 相关 性 ， 能 够 带 来 些 好 处 。 例 如 ， 可 以 按照 用 户 进行 分 片 ， 然后 将 同一 个 国 
家 的 用 户 放 到 同一 个 节点 的 分 片上 。 


为 已 有 的 应 用 增加 分 片 支持 的 结果 往往 是 一 个 节点 对 应 一 个 分 片 。 这 种 简化 的 设计 可 以 
减少 对 应 用 查询 的 修改 。 分 片 对 应 用 而 言 通常 是 一 种 颠覆 性 的 改变 ， 所 以 应 尽 可 能 简化 
它 。 如 果 在 分 片 后， 每 个 市 点 看 起 来 就 像 是 整个 应 用 数据 的 缩 略 图 ， 就 无 须 去 改变 大 多 
数 查 询 或 担心 查询 是 否 传递 到 期 望 的 市 点 。 


8. 固定 分 配 
将 数据 分 配 到 分 片 中 有 两 种 主要 的 方法 : 固定 分 配 和 动态 分 配 。 两 种 方法 都 需要 一 个 分 
区 函数 ， 使 用 行 的 分 区 键 值 作为 输入 ， 返 回 存储 该 行 的 分 片 。 


固定 分 配 使 用 的 分 区 函数 仅仅 依赖 于 分 区 键 的 值 。 哈 希 国 数 和 取 模 运算 就 是 很 好 的 例子 。 
这 些 函 数 按照 每 个 分 区 键 的 值 将 数据 分 散 到 一 定数 量 的 “ 桶 ”中 。 


假设 有 100 个 桶 ， 你 希望 和 弄 清 楚 用 户 111 该 放 到 哪个 桶 里 。 如 果 使 用 的 是 对 数字 求 模 的 
方式 ， 答 案 很 简单 : 111 对 100 取 模 的 值 为 11， 所 以 应 该 将 其 放 到 第 11 个 分 片 中 。 


而 如 果 使 用 CRC320 国 数 来 做 哈 希 ， 答 案 是 81。 


ae SELECT ees % 100; 


ACHE Re eS, FHR, Be AT LAE A Be a. 


28: 这 里 的 HR” 使 用 了 其 数学 涵义 ， 表 示 从 输入 OR) 到 输出 〈 区 间 ) 的 上 映射。 如 你 所 见 ， 可 以 
用 很 多 方式 来 创建 类 似 的 函数 ， 包 括 在 数据 库 中 使 用 查找 表 。 
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(HE ACH BOP RA: 


© ”如 果 分 片 很 大 并 且 数 量 不 多 ， 就 很 难 平衡 不 同 分 片 间 的 负载 。 

。 ”固定 分 片 的 方式 无 法 自 定义 数据 放 到 哪个 分 片上 ， 这 一 点 对 于 那些 在 分 片 间 负载 不 
均衡 的 应 用 来 说 尤其 重要 。 一 些 数 据 可 能 比 其 他 的 更 加 活跃 ， 如 果 这 些 热点 数据 都 
分 配 到 同一 个 分 片 中 ， 固 定 分 配 的 方式 就 无 法 通过 热点 数据 转移 的 方式 来 平衡 负载 。 
(如 果 每 个 分 片 的 数据 量 切 分 得 比较 小 ， 这 个 问题 就 没 那 么 严重 ,根据 大 数 定 律 ， 这 
样 做 会 更 容易 将 热点 数据 平均 分 配 到 不 同 分 片 。) 

。 修改 分 片 策 略 通 常 比较 困难 ， 因 为 需要 重新 分 配 已 有 的 数据 。 例 如 ， 如 采 通 过 模 10 
的 哈 希 函数 来 进行 分 片 ， 就 会 有 10 个 分 片 。 如 果 应 用 增长 使 得 分 片 变 大 ， 如 果 要 拆 
分 成 20 个 分 片 ， 就 需要 对 所 有 数据 重新 哈 希 ， 这 会 导致 更 新 大 量 数据 ， 并 在 分 片 间 
转移 数据 。 


正 是 由 于 这 些 限 制 ， 我 们 倾向 于 为 新 应 用 选择 动态 分 配 的 方式 。 但 如 果 是 为 已 有 的 应 用 
做 分 上 请， 使 用 固定 分 配 策略 可 能 会 更 容易 些 ， 因 为 它 更 简单 。 也 就 是 说 ， 大 多 数 使 用 国 
定 分 配 的 应 用 最 后 迟早 要 使 用 动态 分 配 策略 。 


9. 动态 分 配 
另外 一 个 选择 是 使 用 动态 分 配 ， PE TRUBS UR — 个 分 和 假设 一 个 有 两 列 的 表 ， 
包括 用 户 ID 和 分 片 ID。 
CREATE TABLE user to shard ( 
user_id INT NOT NULL, 
shard id INT NOT NULL, 
i PRIMARY KEY (user_id) 
这 个 表 本 身 就 是 分 区 函数 。 给 定 分 区 键 (用 户 ID) 的 值 就 可 以 获得 分 片 号 。 如 果 该 行 不 
存在 ， 就 从 目标 分 片 中 找到 并 将 其 加 入 到 表 中 。 也 可 以 推迟 更 新 一 一 这 就 是 动态 分 配 的 
含义 。 
动态 分 配 增加 了 分 区 函数 的 开销 , 因为 需要 额外 调用 一 次 外 部 资源 , 例如 目录 服务 器 ( 存 
储 映射 关系 的 数据 存储 节点 )。 出 于 效率 方面 的 考虑 ， 这 种 架构 常常 需要 更 多 的 分 层 。 例 
如 ， 可 以 使 用 一 个 分 布 式 缓存 系统 将 目录 服务 器 的 数据 加 载 到 内 存 中 ， 因 为 这 些 数据 平 
时 改动 很 小 。 或 者 更 普遍 地 ， 你 可 以 直接 向 USERS 表 中 增加 一 个 shard id 列 用 于 存储 分 
AS. 


动态 分 配 的 最 大 好 处 是 可 以 对 数据 存储 位 置 做 细 粒 度 的 控制 。 这 使 得 均衡 分 配 数据 到 分 
片 更 加 容易 ， 并 可 提供 适应 未 知 改变 的 灵活 性 。 
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动态 映射 可 以 在 简单 的 键 一 分 片 (key-to-shard) 映射 的 基础 上 建立 多 层次 的 分 片 策略 。 
例如 ， 可 以 建立 一 个 双重 映射 ， 将 每 个 分 片 单元 指定 到 一 个 分 组 中 〈 例 如 ， 读 书 俱 乐 部 
的 用 户 组 )， 然 后 尽 可 能 将 这 些 组 保持 在 同一 个 分 片 中 。 这 样 可 以 利用 分 片 亲 和 性 ， 避 
免 跨 分 片 查询 。 


如 有 果 使 用 动态 分 配 策略 ， 可 以 生成 不 均衡 的 分 片 。 如 果 服 务 器 能 力 不 相 同 ， 或 者 希望 将 
其 中 一 些 分 片 用 于 特定 目的 《例如 归档 数据 )， 这 可 能 会 有 用 。 如 果 能 够 做 到 随时 重新 
平衡 分 片 ， 也 可 以 为 分 片 和 节点 间 维 持 一 一 对 应 的 映射 关系 ， 这 不 会 浪费 容量 。 也 有 些 
人 喜欢 简单 的 每 个 节点 一 个 分 片 的 方式 。( 但 是 请 记 住 ， 保 持 分 片 尽 可 能 小 是 有 好 处 的 。) 


动态 分 配 以 及 灵活 地 利用 分 片 亲 和 性 有 助 于 减轻 规模 扩大 而 带 来 的 跨 分 片 查询 问题 。 假 
设 一 个 跨 分 片 查询 涉及 四 个 节点 ， 当 使 用 固定 分 配 时 ， 任 何 给 定 的 查询 可 能 需要 访问 所 
有 分 片 ， 但 动态 分 配 策略 则 可 能 只 需要 在 其 中 的 三 个 节点 上 运行 同样 的 查询 。 这 看 起 来 
没什么 大 区 别 ， 但 考虑 一 下 当 数 据 存储 增加 到 400 个 分 片 时 会 发 生 什么 ? 固定 分 配 策略 
需要 访问 400 个 分 片 ， 而 动态 分 配方 式 依然 只 需要 访问 3 个 。 


动态 分 配 可 以 让 分 片 策略 根据 需要 变 得 很 复杂 。 固 定 分 配 则 疫 有 这 么 多 选择 。 


10. 混合 动态 分 配 和 固定 分 配 
可 以 混合 使 用 固定 分 配 和 动态 分 配 。 这 种 方法 通常 很 有 有 用， 有 时 候 甚至 必须 要 混合 使 用 。 
目录 映射 不 太 大 时 ， 动 态 分 配 可 以 很 好 胜任 。 但 如 果 分 片 单元 太 多 ， 效 采 就 会 变 差 。 


以 一 个 存储 网 站 链接 的 系统 为 例 。 这 样 一 个 站 点 需要 存储 数 百 亿 的 行 ， 所 使 用 的 分 区 键 
是 源 地 址 和 目的 地 址 URL 的 组 合 。( 这 两 个 URL 的 任意 一 个 都 可 能 有 好 几 亿 的 链接 ， 
因此 ， 单 独 一 个 URL 并 不 适合 做 分 区 键 )。 但 是 在 映射 表 中 存储 所 有 的 源 地 址 和 目的 地 
ht URL 组 合并 不 合理 ， 因 为 数据 量 太 大 了 ， 每 个 URL 都 需要 很 多 存储 空间 。 


一 个 解决 方案 是 将 URL 相连 并 将 其 哈 希 到 固定 数目 的 桶 中 ， 然 后 把 桶 动态 地 映射 到 分 
片上 。 如 果 桶 的 数目 足够 大 一 一 例如 100 万 个 一 一 你 就 能 把 大 多 数 数据 分 配 到 每 个 分 片 
上 ， 获 得 动态 分 配 的 大 部 分 好 处 ， 而 无 须 使 用 庞大 的 映射 表 。 





11. 显 式 分 配 
第 三 种 分 配 策略 是 在 应 用 插入 新 的 数据 行 时 ， 显 式 地 选择 目标 分 片 。 这 种 策略 在 已 有 的 
数据 上 很 难 做 到 。 所 以 在 为 应 用 增加 分 片 时 很 少 使 用 。 但 在 某 些 情况 下 还 是 有 用 的 。 


这 个 方法 是 把 数据 分 片 号 编码 到 ID 中 ， 这 和 之 前 提 到 的 避免 主 一 主 复制 主键 冲突 策略 
比较 相似 。( 详 情 请 参阅 “在 主 一 主 复制 结构 中 写 人 两 台 主 库 。) 
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例如 ， 假 设 应 用 要 创建 一 个 用 户 3， 将 其 分 配 到 第 11 个 分 片 中 ， 并 使 用 BIGINT 列 的 高 八 
位 来 保存 分 片 号 。 这样 最 终 的 ID 就 是 (11<<56)+3， 即 792633534417207299。 应 用 可 以 
很 方便 地 从 中 抽取 出 用 户 ID 和 分 片 号 ， 如 下 例 所 示 。 


mysql> SELECT (792633534417207299 >> 56) AS shard_id, 
-> 792633534417207299 & ~(11 << 56) AS user_id; 


+---------- +--------- + 
| shard id | user_id | 
+---------- +--------- + 
| 11 | 3 | 
+---------- +--------- + 


现在 假设 要 为 该 用 户 创建 一 条 评论 ， 并 存储 在 同一 个 分 片 中 。 应 用 可 以 为 该 用 户 分 配 一 
个 评论 ID 5， 然 后 以 同样 的 方式 组 合 5 和 分 片 号 11。 


这 种 方法 的 好 处 是 每 个 对 象 的 ID 同时 包含 了 分 区 键 ， 而 其 他 方法 通常 需要 一 次 关联 或 
查找 来 确定 分 区 键 。 如 果 要 从 数据 库 中 检索 某 个 特定 的 评论 ， 无 须知 道 哪个 用 户 拥有 它 ， 
对 象 ID 会 告诉 你 到 哪里 去 找 。 如 果 对 象 是 通过 用 户 ID 动态 分 片 的 ， 就 得 先 找到 该 评论 
的 用 户 ， 然 后 通过 目录 服务 器 找到 对 应 的 数据 分 片 。 


另 一 个 解决 方案 是 将 分 区 键 存储 在 一 个 单独 的 列 里 。 例 如 ， 你 可 能 从 不 会 单独 引用 评论 
5， 但 是 评论 5 属于 用 户 3。 这 种 方法 可 能 会 让 一 些 人 高 兴 ， 因 为 这 不 违背 第 一 范式 ; 然 
而 额外 的 列 会 增加 开销 、 编 码 ， 以 及 其 他 不 便 之 处 。( 这 也 是 我 们 将 两 值 存在 单独 一 列 
的 优点 之 一 。) | 


显 式 分 配 的 缺点 是 分 片 方式 是 固定 的 ， 很 难 做 到 分 片 间 的 负载 均衡 。 但 结合 固定 分 配 和 
动态 分 配 ， 该 方法 就 能 够 很 好 地 工作 。 不 再 像 之 前 那样 哈 希 到 固定 数目 的 桶 里 并 将 其 映 
射 到 市 上 把 ， 而 是 将 桶 作为 对 象 的 一 部 分 进行 编码 。 这 样 应 用 就 能 够 控制 数据 的 存储 位 置 ， 
因此 可 以 将 相关 联 的 数据 一 起 放 到 同样 的 分 片 中 。 


BoardReader (http://boardreader.com) 使 用 了 该 技术 的 一 个 变种 : 它 把 分 区 键 编码 到 
Sphinx 的 文档 ID 内 。 这 使 得 在 分 片 数据 存储 中 查找 每 个 查询 结果 的 关联 数据 变 得 容易 ， 
更 多 关于 Sphinx WAR TAE KMK F. 

我 们 讨论 了 混合 分 配方 式 ， 因 为 在 某 些 场景 下 它 是 有 用 的 。 但 正常 情况 下 我 们 并 不 推荐 
这 样 用 。 我 们 倾 同 于 尽 可 能 使 用 动态 分 配 ， 避 免 显 式 分 配 。 


12. 重新 均衡 分 片 数 据 
如 有 必要 ， 可 以 通过 在 分 片 间 移动 数据 来 达到 负载 均衡 。 举 个 例子 ， 许 多 读者 可 能 听 一 
些 大 型 图 片 分 享 网 站 或 流行 社区 网 站 的 开发 者 提 到 过 用 于 分 片 间 移动 用 户 数据 的 工具 。 
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在 分 片 间 移动 数据 的 好 处 很 明显 。 例 如 ， 当 需要 升级 硬件 时 ， 可 以 将 用 户 数据 从 旧 分 片 
转移 到 新 分 片上 ， 而 无 须 暂 停 整个 分 片 的 服务 或 将 其 设置 为 只 读 。 


然而 ， 我 们 也 应 该 尽量 避免 重新 均衡 分 片 数据 ， 因 为 这 可 能 会 影响 用 户 使 用 。 在 分 片 间 
转移 数据 也 使 得 为 应 用 增加 新 特性 更 加 困难 ， 因 为 新 特性 可 能 还 需要 包含 针对 重新 均衡 
脚本 的 升级 。 如 果 分 片 足够 小 ,就 无 须 这 么 做 ;也 可 以 经 常 移动 整个 分 片 来 重新 均衡 负载 ， 
这 比 移动 分 片 中 的 部 分 数据 要 容易 得 多 (并且 以 每 行 数据 开销 来 衡量 的 话 ， 更 有 效率 )。 


一 个 较 好 的 策略 是 使 用 动态 分 片 策略 ， 并 将 新 数据 随机 分 配 到 分 片 中 。 当 一 个 分 片 快 满 
时 ， 可 以 设置 一 个 标志 位 ， 告 诉 应 用 不 要 再 往 这 里 放 数据 了 。 如 果 未 来 需要 向 分 片 中 放 
入 更 多 数据 ， 可 以 直接 把 标记 位 清除 。 


假设 安装 了 一 个 新 的 MySQL WA, EMA 100 个 分 片 。 先 将 它们 的 标记 设置 为 1， 这 
样 应 用 就 知道 它们 正 准 备 接受 新 数据 。 一 旦 它们 的 数据 足够 多 时 (例如 ， 每 个 分 片 
10 000 个 用 户 ), 就 把 标记 位 设置 为 0。 之 后 , 如 果 节 点 因为 大 量 废弃 账号 导致 负载 不 足 ， 
可 以 重新 打开 一 些 分 片 向 其 中 增加 新 用 户 。 


如 果 升 级 应 用 并 且 增 加 的 新 特性 会 导致 每 个 分 片 的 查询 负载 升 高 ， 或 者 只 是 算 错 了 负载 ， 
可 以 把 一 些 分 片 移 到 新 节点 来 减轻 负载 。 缺 点 是 操作 期 间 整 个 分 片 会 变 成 只 读 或 者 处 于 


另外 一 种 使 用 得 较 多 的 策略 是 为 每 个 分 片 设置 两 台 备 库 ， 每 个 备 库 都 有 该 分 片 的 完整 数 
据 。 然 后 每 个 备 库 负责 其 中 一 半 的 数据 ， 并 完全 停止 在 主 库 上 查询 。 这 样 每 个 备 库 都 会 
有 一 半 它 不 会 用 到 的 数据 ; 我 们 可 以 使 用 一 些 工具 ， 例 如 Percona Toolkit 的 pt-archiver, 
在 后 台 运 行 ， 移 除 那 些 不 再 需要 的 数据 。 这 种 办 法 很 简单 并 且 几 乎 不 需要 停机 。 


13. 生成 全 局 唯一 ID 

当 和 希望 把 一 个 现 有 系统 转换 为 分 片 数据 存储 时 ， 经 常会 需要 在 多 人 台 机 器 上 生成 全 局 唯一 
ID。 单 一 数据 存储 时 通常 可 以 使 用 AUTO INCREMENT 列 来 获取 唯一 ID。 但 涉及 多 台 
服务 器 时 就 不 凑 效 了 。 以 下 几 种 方法 可 以 解决 这 个 问题 : 


使 用 auto_increment_increment 和 auto_increment_offset 
这 两 个 服务 器 变量 可 以 让 MySQL 以 期 望 的 值 和 偏 移 量 来 增加 AUTO_INCREMENT 列 的 
值 。 举 一 个 最 简单 的 场景 ， 只 有 两 台 服 务 器 ， 可 以 配置 这 两 台 服 务 器 目 增 幅度 为 2， 
其 中 一 台 的 偏 移 量 设置 为 1!1， 另 外 一 台 为 2 两 个 都 不 可 以 设置 为 0)。 这 样 一 台 服 
务 器 总 是 包含 偶数 ， 另 外 一 台 则 总 是 包含 奇数 。 这 种 设置 可 以 配置 到 服务 器 的 每 一 
个 表 里 。 | 
这 种 方法 简单 ， 并 且 不 依赖 于 某 个 节点 ， 因 此 是 生成 唯一 ID 的 比较 普遍 的 方法 。 但 
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这 需要 非常 仔细 地 配置 服务 器 。 很 容易 因为 配置 错误 生成 重复 数字 ， 特 别 是 当 增 加 
服务 器 需要 改变 其 角色 ， 或 进行 灾难 恢复 时 。 

金 局 节点 中 创建 表 
在 一 个 全 局 数据 库 节 点 中 创建 一 个 包含 AUTO_INCREMENT 列 的 表 ， 应 用 可 以 通过 这 个 
表 来 生成 唯一 数字 。 

使 用 memcached 
在 memcached 的 API 中 有 一 个 incr() 函数 ， 可 以 自动 增长 一 个 数字 并 返回 结果 。 
另外 也 可 以 使 用 Redis。 

批量 分 配 数字 
应 用 可 以 从 一 个 全 局 节点 中 请 求 一 批 数 字 ， 用 完 后 再 申请 。 

使 用 复合 值 
可 以 使 用 一 个 复合 值 来 做 唯一 ID， 例如 分 片 号 和 自 增 数 的 组 合 。 具 体 参阅 之 前 的 章 
节 。 

使 用 GUID 值 
可 以 使 用 UUID() 函数 来 生成 全 局 唯一 值 。 注 意 ， 尽 管 这 个 函数 在 基于 语句 的 复制 时 
不 能 正确 复制 ， 但 可 以 先 获得 这 个 值 ， 再 存放 到 应 用 的 内 存 中 ， 然 后 作为 数字 在 查 
询 中 使 用 。 GUID 的 值 很 大 并 且 不 连续 ,因此 不 适合 做 InnoDB 表 的 主键 ,具体 参考 “和 
InnoDB 主键 一 致 地 插入 行 ”"。 在 5.1 RE RAMA Hh A AX UUID_SHORT()， 
能 够 生成 连续 的 值 ， 并 使 用 64 位 代替 了 之 前 的 128 fiz. 


如 果 使 用 全 局 分 配器 来 产生 唯一 ID， 要 注意 避免 单 点 争 用 成 为 应 用 的 性 能 瓶颈 。 


虽然 memcached 方 法 执行 速度 快 (每 秒 数 万 个 值 )， 但 不 具备 持久 性 。 每 次 重启 
memcached 服务 都 需要 重新 初始 化 缓存 里 的 值 。 由 于 需要 首先 找到 所 有 分 片 中 的 最 大 值 ， 
因此 这 一 过 程 非常 缓慢 并 且 难 以 实现 原子 性 。 


14. PALA 
在 设计 数据 分 片 应 用 时 ， 首 先 要 做 的 事情 是 编写 能 够 查询 多 个 数据 产 的 代码 。 


如 果 没 有 任何 抽象 层 ， 直 接 让 应 用 访问 多 个 数据 源 ， 那 绝对 是 一 个 很 差 的 设计 ， 因 为 这 
会 增加 大 量 的 编码 复杂 性 。 最 好 的 办 法 是 将 数据 源 隐藏 在 抽象 层 中 。 这 个 抽象 层 主 要 完 
成 以 下 任务 : 

。 连接 到 正确 的 分 片 并 执行 查询 。 

。 分布 式 一 致 性 校 验 。 

© 跨 分 片 结果 集聚 合 。 

© BD ARERR. 
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。 MNES FH . 
。 创建 新 的 数据 分 片 〈 或 者 至 少 在 运行 时 找到 新 分 片 ) 并 重新 平衡 分 片 (如 果 有 时 间 
实现 )。 | 


你 可 能 不 需要 从 头 开始 构建 分 片 结构 。 有 一 些 工 具 和 系统 可 以 提供 一 些 必要 的 功能 或 专 
门 设计 用 来 实现 分 片 架构 。 


Hibernate Shards (http://shards.hibernate.org) 是 一 个 支持 分 片 的 数据 库 抽 象 层 ， 基 于 
Java 语言 的 开源 的 Hibernate ORM 库 扩 展 ， 由 谷歌 提供 。 它 在 Hibernate Core 接口 上 提 
供 了 分 片 感知 功能 ， 所 以 应 用 无 须 专门 为 分 片 设计 ; 事实 上 ， 应 用 甚至 无 须知 道 它 正在 
使 用 分 片 。Hibernate Shards 通过 固定 分 配 策略 向 分 片 分 配 数据 。 另 外 一 个 基于 Java 的 
分 片 系统 是 HiveDB (http://www.hivedb.org) 


如 果 使 用 的 是 PHP 语言 ， 可 以 使 用 Justin Swanhart 提供 的 Shard-Query 系统 (http:// 
code.google.com/p/shard-query/)， 它 可 以 自动 分 解 查询 ， 并 发 执行 ， 并 合并 结果 集 。 另 
外 一 些 有 同样 用 途 的 商用 系统 有 ScaleBase (htip:/www.scalebase.com)、ScalArc (http:// 
www.scalare.com), 以 及 dbShards (http://www.dbshards.com) 。 


Sphinx 是 一 个 全 文 检索 引擎 ， 虽 然 不 是 分 片 数 据 存储 和 检索 系统 ， 但 对 于 一 些 跨 分 片 数 
据 存 储 的 查询 依然 有 用 。Sphinx 可 以 并 行 查询 远程 系统 并 聚合 结果 集 。 在 附录 F 中 会 详 
细 讨 论 Sphinx。 


11.2.5 通过 多 实例 扩展 

一 个 分 片 较 多 的 架构 可 能 会 更 有 效 地 利用 硬件 。 我 们 的 研究 和 经 验 表 明 My SQL 并 不 能 
完全 发 挥 现代 硬件 的 性 能 。 当 扩展 到 超过 24 个 CPU MDH, MySQL 的 性 能 开始 趋 于 
平缓 ， 不 再 上 升 。 当 内 存 超过 128GB 时 也 同样 如 此 ，MySQL 甚至 不 能 完全 发 挥 诸 如 
Virident 或 Fusion-io 卡 这 样 的 高 端 PCIe flash 设备 的 IO PERE. 


不 要 在 一 台 性 能 强悍 的 服务 器 上 只 运行 一 个 服务 器 实例 ， 我 们 还 有 别 的 选择 。 你 可 以 让 
数据 分 片 足够 小 ， 以 使 每 台 机 器 上 都 能 放置 多 个 分 片 (这 也 是 我 们 一 直 提倡 的 )， 每 台 
服务 器 上 运行 多 个 实例 ， 然 后 划分 服务 器 的 硬件 资源 ， 将 其 分 配给 每 个 实例 。 


这 样 做 尽管 比较 烦 珊 ， 但 确实 有 效 。 这 是 一 种 向 上 扩展 和 向 外 扩展 的 组 合 方案 。 也 可 以 
用 其 他 方法 来 实现 一 一 不 一 定 需要 分 片 一 一 但 分 片 对 于 在 大 型 服务 器 上 的 联合 扩展 具有 
天 然 的 适应 性 。 


一 些 人 倾向 于 通过 虚拟 化 技术 来 实现 合并 扩展 ， 这 有 它 的 好 处 。 但 虚拟 化 技术 本 身 有 很 
大 的 性 能 损耗 。 具 体 损耗 多 少 取决 于 具体 的 技术 ， 但 通常 都 比较 明显 ， 尤 其 是 IO 非常 
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快 的 时 候 损耗 会 非常 惊人 。 另 一 种 选择 是 运行 多 个 MySQL 实例 ， 每 个 实例 监听 不 同 的 
网 络 端口 ， 或 绑 定 到 不 同 的 IP 地 址 。 


我 们 已 经 在 一 台 性 能 强悍 的 硬件 上 获得 了 10 倍 或 15 倍 的 合并 系数 。 你 需要 平衡 管理 复 
杂 度 代价 和 更 优 性 能 的 收益 ， 以 决定 哪 种 方法 是 最 优 的 。 


这 时 候 网 络 可 能 会 成 为 瓶颈 一 一 这 个 问题 大 多 数 MySQL 用 户 都 不 会 遇 到 。 可 以 通过 使 
用 多 块 网 卡 并 进行 绑 定 来 解决 这 个 问题 。 但 Linux 内 核 可 能 会 不 理想 ,这 取决 于 内 核 版 本 ， 
因为 老 的 内 核对 每 个 绑 定 设备 的 网 络 中 断 只 能 使 用 一 个 CPU。 因 此 不 要 把 太 多 的 连 线 绑 
定 到 很 少 的 虚拟 设备 上 上， 否则 会 遇 到 内 核 层 的 网 络 瓶颈 。 新 的 内 核 在 这 一 方面 会 有 所 改 
善 ， 所 以 需要 检查 你 的 系统 版 本 ， 以 确定 该 怎么 做 。 


另 一 个 方法 是 将 每 个 MySQL 实例 绑 定 到 特定 的 CPU 核心 上 。 这 有 两 点 好 处 : 第 一 ， 由 
于 MySQL 内 部 的 可 扩展 性 限制 ， 当 核心 数 较 少 时 ， 能 够 在 每 个 核心 上 获得 更 好 的 性 能 ; 
第 二 ， 当 实例 在 多 个 核心 上 运行 线程 时 ， 由 于 需要 在 多 核心 上 同步 共享 数据 ， 因 而 会 有 
一 些 额外 的 开销 。 这 可 以 避免 硬件 本 身 的 可 扩展 性 限制 。 限 制 MySQL 到 少数 几 个 核心 
能 够 帮助 减少 CPU 核心 之 间 的 交互 。 注 意 到 反复 出 现 的 问题 了 没 ? 将 进程 绑 定 到 具有 相 
同 物理 套 接 字 的 核心 上 可 以 获得 最 优 的 效果 。 


11.2.6 通过 集群 扩展 

理想 的 扩展 方案 是 单一 逻辑 数据 库 能 够 存储 尽 可 能 多 的 数据 ， 处 理 尽 可 能 多 的 查询 ， 并 
如 期 望 的 那样 增长 。 许 多 人 的 第 一 想法 就 是 建立 一 个 “集群 ”或 者 “网 格 ” 来 无 颖 处 理 
这 些 事 情 ， 这 样 应 用 就 无 须 去 做 太 多 工作 ， 也 不 需要 知道 数据 到 底 存 在 哪 台 服务 器 上 。 
随 着 云 计 算 的 流行 ， 自 动 扩展 一 一 根据 负载 或 数据 大 小 变化 动态 地 在 集群 中 增加 / 移 除 
服务 器 变 得 越 来 越 有 趣 。 


在 本 书 第 二 版 时 ， 我 们 遗憾 地 看 到 已 有 的 技术 无 法 完成 这 一 任务 。 从 那 时 开始 ， 出 现 了 
许多 被 称 为 NoSQL 的 技术 。 许 多 NoSQL 的 支持 者 发 表 了 一 些 奇怪 且 未 经 证 实 的 观点 ， 
例如 “关系 模型 无 法 进行 扩展 ”， 或 者 “SQL 无 法 扩展 ”。 随 着 新 概念 的 出 现 ， 也 出 现 了 
一 些 新 的 术语 。 最 近 谁 没有 听 说 过 最 终 一 致 性 、BASE、 矢 量 时 钟 ， 或 者 CAP 理论 呢 ? 


但 随 着 时 间 推 黎 ， 理 性 开始 逐渐 回归 。 经 验 表明 许多 NoSQL 数据 库 太 过 于 简单 ， 并 
且 无 法 完成 很 多 工作 ”。 同 时 一 些 基于 SQL 的 技术 开始 出 现 一 一 例如 451 集团 (451 
Group) 的 Matt Aslett 所 提 到 的 NewSQL 数据 库 。SQL 和 NewSQL 到 底 有 什么 区 别 呢 ? 
NewSQL 数据 库 中 SQL 及 相关 技术 都 不 应 该 成 为 问题 。 而 可 扩展 性 问题 在 关系 型 数据 库 
中 是 一 个 实现 上 的 难题 ， 但 新 的 实现 正 表现 出 越 来 越 好 的 结果 。 | 





注 9 : Yeah, yeah, 我 们 知道 ， 为 你 的 工作 选择 正确 的 工具 。 这 里 引用 显而易见 但 听 起 来 很 有 意义 的 评论 。 
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所 有 的 旧事 物 都 变 成 新 的 了 吗 ? 是 ， 但 也 不 是 。 许 多 关系 型 数据 库 集 群 的 高 性 能 设计 正 
在 被 构建 到 系统 的 更 低层 ,在 NoSQL 数据 库 中 ,特别 是 使 用 键 一 值 存储 时 ,这 一 点 很 明显 。 
例如 NDB Cluster 并 不 是 一 个 SQL 数据 库 ; 它 是 一 个 可 扩展 的 数据 库 ， 使 用 其 原生 API 
来 控制 ， 通 常 是 使 用 NoSQL， 但 也 可 以 通过 在 前 端 使 用 MySQL 存储 引擎 来 支持 SQL. 
它 是 一 个 完全 分 布 式 、 非 共享 高 性 能 、 自 动 分 片 并 且 不 存在 单 点 故障 的 事务 型 数据 库 服 
务 器 。 最 近 几 年 正 变 得 更 强大 、 更 复杂 ， 用 途 也 更 广泛 。 同 时 ，NoSQL 数据 库 也 逐渐 看 
起 来 越 来 越 像 关 系 型 数据 库 。 有 些 甚至 还 开发 了 类 SQL 查询 语言 。 未 来 典型 的 集群 数据 
库 可 能 更 像 是 SQL 和 NoSQL 的 混合 体 ， 有 多 种 存 取 机 制 来 满足 不 同 的 使 用 需求 。 所 以 ， 
我 们 在 从 NoSQL 中 汲取 优点 ， 但 SQL 仍然 会 保留 在 集群 数据 库 中 。 


在 写作 本 书 时 ， 和 MySQL 结合 在 一 起 的 集群 或 分 布 式 数据 库 技术 大 致 包括 : NDB 
Cluster, Clustrix, Percona XtraDB Cluster, Galera, Schooner Active Cluster, 
Continuent Tungsten, ScaleBase, ScaleArc, dbShards, Xeround, Akiban, VolItDB, 
以 及 GenieDB。 这 些 或 多 或 少 以 MySQL 为 基础 ， 或 通过 MySQL 进行 控制 ， 或 是 和 
MySQL 相关 。 本 书 会 讲 到 这 其 中 的 一 部 分 一 一 例如 ， 在 第 13 章 我 们 会 讲 到 Xeround， 
在 第 10 章 我 们 讲 到 了 Continuent Tungsten 和 其 他 几 种 技术 一 一 这 里 我 们 同样 会 对 其 中 
的 几 个 进行 描述 。 


在 开始 前 ， 需 要 指出 ， 可 扩展 性 、 高 可 用 性 、 事 务 性 等 是 数据 库 系 统 的 不 同 特性 。 许 多 
人 会 感到 困惑 并 将 这 些 当 作 是 相同 的 东西 ， 但 事实 上 不 是 。 本 章 我 们 主要 集中 讨论 可 扩 
展 性 。 但 事实 上 ， 可 扩展 的 数据 库 并 不 一 定 非常 优秀 ,除非 它 能 保证 高 性 能 ， 谁 愿意 御 
性 高 可 用 性 来 进行 扩展 呢 ? 这 些 特 性 的 组 合 堪 称 数据 库 的 必 杀 技 ， 但 这 很 难 实现 。 当 然 
这 不 是 本 章 要 讨论 的 内 容 。 


最 后 ， 除 NDB Cluster 外 ， 大 多 数 NewSQL 集群 产品 都 是 比较 新 的 事物 。 我 们 还 没有 看 
到 足够 多 的 生产 环境 部 署 以 完全 获知 其 优点 和 限制 。 尽 管 它们 提 到 了 MySQL 协议 或 其 
他 与 MySQL 相关 的 地 方 ， 但 它们 毕竟 不 是 MySQL， 因 此 不 在 本 书 讨论 的 范围 内 。 我 们 
仅仅 稍微 提 一 下 ， 由 你 自己 来 判断 它们 是 否 适用 。 


1. MySQL Cluster (NDB Cluster) 

MySQL Cluster 是 两 项 技术 的 结合 :NDB 数据 库 , 以 及 作为 SQL 前 端的 MySQL 存储 引擎 。 
NDB 是 一 个 分 布 式 、 具 备 容 错 性 、 非 共享 的 数据 库 ， 提 供 同 步 复制 以 及 节点 间 的 数据 自 
动 分 片 .NDB Cluset 存 储 引 擎 将 SQL 转换 为 NDB API 调 用 ,但 遇 到 NDB 不 支持 的 操作 时 ， 
就 会 在 MySQL 服务 器 上 执行 (NDB 是 一 个 键 一 值 数 据 存储 ， 无 法 执行 类 似 联 接 或 聚合 
的 复杂 操作 ) 。 


NDB 是 一 个 非常 复杂 的 数据 库 ， 和 MySQL 几乎 完全 不 同 。 在 使 用 NDB 时 甚至 可 以 不 
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需要 MySQL : 你 可 以 把 它 作为 一 个 独立 的 键 一 值 数据 库 服 务 器 。 它 的 亮点 包括 非常 高 
的 号 人 和 按键 查询 吞吐 量 。NDB 可 以 基于 键 的 哈 希 自动 决定 哪个 节点 应 该 存储 给 定 的 数 
据 。 当 通过 MySQL 来 控制 NDB 时 ， 行 的 主键 就 是 键 ， 其 他 的 列 是 值 。 


因为 它 基 于 一 些 新 的 技术 ， 并 且 集 群 具 有 容错 性 和 分 布 式 特性 ， 所 以 管理 NDB 需要 非 
常 专业 和 特殊 的 技能 。 有 许多 动态 变化 的 部 分 ， 还 有 类 似 升级 集群 或 增加 市 点 的 操作 必 
须 正确 执行 以 防止 意外 的 问题 。NDB 是 一 项 开源 技术 ,但 也 可 以 从 Oracle WRR X 
持 。 商 业 支 持 中 包括 能 够 获得 专门 的 集群 管理 产品 Cluster Manager， 可 以 目 动 执行 一 
些 枯 燥 且 棘手 的 任务 。(Severalnines 同样 提供 了 一 个 集群 管理 产品 ， 参 见 http://www. 


severalnines.com) ) 。 


MySQL Cluster 正在 迅速 地 增加 越 来 越 多 的 特性 和 功能 。 例 如 在 最 近 的 版 本 中 ， 它 开始 
支持 更 多 类 型 的 集群 变更 而 无 须 停机 操作 ， 并 且 能 够 在 数据 存储 的 节点 上 执行 一 些 特定 
类 型 的 查询 ， 以 减少 数据 传递 给 MySQL 层 并 在 其 中 执行 查询 的 必要 性 。( 这 个 特性 已 由 
关联 下 推 (push-down join) 更 名 为 自 适 应 查询 本 地 化 (adaptive query localization), ) 


NDB 曾经 相对 其 他 MySQL 存储 引擎 具有 完全 不 同 的 性 能 特性 ， 但 最 近 的 版 本 更 加 通用 
化 了 。 它 正在 成 为 越 来 越 多 应 用 的 更 好 的 解决 方案 ， 包 括 游戏 和 移动 应 用 。 我 们 必须 强 
调 ，NDB 是 一 项 重要 的 技术 ， 能 够 支持 全 球 最 大 的 关键 应 用 ， 这 些 应 用 处 于 极 高 的 负载 
下 ， 具 有 非常 严 苛 的 延迟 要 求 以 及 不 间断 要 求 。 举 个 例子 ， 世 界 上 任何 一 个 通过 移动 电 
话 网 络 呼叫 的 电话 使 用 的 就 是 NDB， 并 且 不 是 临时 方案 一 一 对 于 许多 移动 电话 提供 商 而 
言 ， 它 是 一 个 主要 的 并 且 非 常 重要 的 数据 库 。 


NDB 需要 一 个 快速 且 可 靠 的 网 络 来 连 楼 节点 。 为 了 获得 最 好 的 性 能 ， 最 好 使 用 特定 的 高 
速 连接 设备 。 由 于 大 多 数 情 况 下 需要 内 存 操作 ， 因 此 服务 器 间 需 要 大 量 的 内 存 。 


那么 它 有 什么 缺点 呢 ? 复杂 查询 现在 支持 得 还 不 是 很 好 ， 例 如 那些 有 很 多 关联 和 聚合 的 
查询 。 所 以 不 要 指望 用 它 来 做 数据 仓库 。NDB 是 一 个 事务 型 系统 ， 但 不 支持 MVCC， 
所 以 读 操作 也 需要 加 锁 ， 也 不 做 任何 的 死 锁 检测 。 如 果 发 生死 锁 ，NDB 就 以 超时 返回 的 
方式 来 解决 。 还 有 很 多 你 应 该 知道 的 要 点 和 警告 ， 可 以 专门 写 一 本 书 了 。( 有 一 些 关 于 
MySQL Cluster 的 书 ， 但 大 多 数 都 过 时 了 ， 最 好 的 办 法 是 阅读 手册 .。) 


2. Clustrix | 

Clustrix (http://www.clustrix.com) 是 一 个 分 布 式 数据 库 ， 支 持 MySQL 协议 ， 所 以 它 可 
以 直接 替代 MySQL. 除了 协议 外 , 它 是 一 个 全 新 的 技术 ,并非 建立 在 MySQL 的 基础 之 上 。 
它 是 一 个 完全 支持 ACID , 支持 MVCC 的 事务 型 SQL 数据 库 , 主要 用 于 OLTP 负载 场景 。 
Clustrix 在 节点 间 进行 数据 分 片 以 满足 容错 性 ， 并 对 查询 进行 分 发 ， 在 节点 上 并 发 执行 ， 


528 | 第 11 章 可 扩展 的 MySQL 


而 不 是 将 所 有 节点 上 取得 的 数据 集中 起 来 执行 。 集 群 可 以 在 线 扩展 节点 来 处 理 更 多 的 数 
据 或 负载 。 在 某 些 方面 Clustrix 和 MySQL Cluster 很 像 ; 关键 的 不 同 点 是 ，Clustrix 是 完 
全 分 布 式 执行 并 且 缺 少 顶层 的 “代理 ”或 者 集群 前 端的 查询 协调 器 (query coordinator) 。 
Clustrix 本 身 能 够 理解 MySQL 协议 ， 所 以 无 须 MySQL 来 进行 协议 转换 。 相 比较 而 言 ， 
MySQL cluster 是 由 三 个 部 分 组 成 的 : MySQL, NDB 集群 存储 引擎 ， 以 及 NDB。 


我 们 的 实验 评估 和 性 能 测试 表明 ，Clustrix 能 够 提供 高 性 能 和 可 扩展 性 。Clustrix 看 起 来 
是 一 项 比较 有 前 景 的 技术 ， 我 们 将 继续 观察 和 评估 。 


3. ScaleBase 


ScaleBase (http://www.scalebase.com) 是 一 个 软件 代理 ， 处 于 应 用 和 多 个 后 端 MySQL 
服务 器 之 间 。 它 会 把 发 起 的 查询 进行 分 裂 ， 并 将 其 分 发 到 后 端 服务 器 并 发 执行 ， 然 后 汇 
集结 果 返 回 给 应 用 。 不 过 在 写作 本 书 时 ， 我 们 还 没有 使 用 该 产品 的 经 验 。 另 外 的 竞争 产 
品 有 ScaleArc (http://www.calearc.com) 和 dbShards (http://www.dbshards.com) ) 。 


4. GenieDB 


GenieDB (http://www.geniedb.com) 最 开始 用 于 地 理 上 分 布 部 署 的 NoSQL 文档 存储 。 现 
在 它 也 有 一 个 SQL 层 ， 可 以 通过 MySQL 存储 引擎 进行 控制 。 它 包含 了 很 多 技术 ， 包 括 
本 地 内 存 缓存 、 消 息 层 ， 以 及 持久 化 磁盘 数据 存储 。 将 这 些 技术 汇集 在 一 起 ， 就 可 以 使 
用 松散 的 最 终 一 致 性 ， 让 应 用 在 本 地 快速 执行 查询 ， 或 是 通过 分 布 式 集群 (会 增加 网 络 
延迟 ) 来 保证 最 新 的 数据 视图 。 


通过 存储 引擎 实现 的 MySQL 兼容 层 不 能 提供 100% 的 MySQL 特性 ， 但 对 于 支持 类 似 
Joomla!、WordPress， 以 及 Drupal 这 样 的 应 用 已 经 够 用 了 。MySQL 存储 引擎 的 用 处 主 
要 是 使 GenieDB 能 够 结合 存储 引擎 获得 对 ACID 的 支持 ， 例 如 InnoDB。GenieDB 本 身 
并 不 是 ACID 数据 库 。 


我 们 还 没 用 应 用 过 GenieDB， 也 没有 看 到 任何 生产 环境 部 署 。 


5. Akiban 


对 Akiban (http://www.akiban.com) 最 好 的 描述 应 该 是 查询 加 速 器 。 它 通过 存储 物 
理 数 据 来 匹配 查询 模式 ， 使 得 低 开 销 的 跨 表 关联 操作 成 为 可 能 。 尽 管 类 似 反 范式 化 
(denormalization) ， 但 数据 层 并 不 是 宛 余 的 ， 所 以 这 和 预先 计算 关联 并 存储 结果 的 方式 
是 不 同 的 。 关 联 表 中 元 组 是 互相 交错 的 ， 所 以 能 够 按照 关联 顺序 进行 顺序 扫描 。 这 就 要 
求 管 理 员 确定 查询 模式 能 够 从 所 谓 的 “ 表 组 ”(table grouping) 技术 中 受益 ， 并 需要 为 
查询 优化 设计 表 组 。 目 前 建议 的 系统 架构 是 将 Akiban 配置 为 MySQL 主 库 的 备 库 ， 并 用 
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它 来 为 可 能 较 慢 的 查询 提供 服务 。 加 速 系数 是 一 到 两 个 数量 级 。 但 是 我 们 还 没有 看 到 生 
产 环境 部 署 或 者 相关 的 实验 评估 。 兰 " 


11.2.7 向 内 扩展 

处 理 不 断 增 长 的 数据 和 负载 最 简单 的 办 法 是 对 不 再 需要 的 数据 进行 归档 和 清理 。 这 种 操 
作 可 能 会 带 来 显著 的 成 效 ， 具 体 取 决 于 工作 负载 和 数据 特性 。 这 种 做 法 并 不 用 来 代替 其 
他 策略 ， 但 可 以 作为 争取 时 间 的 短期 策略 ， 也 可 以 作为 处 理 大 数据 量 的 长 期 计划 之 一 。 


在 设计 归档 和 清理 策略 时 需要 考虑 到 如 下 几 挟 。 


对 应 用 的 影响 
一 个 设计 良好 的 归档 系统 能 够 在 不 影响 事务 处 理 的 情况 下 ， 从 一 个 高 负载 的 OLTP 
服务 器 上 移 除数 据 。 这 里 的 关键 是 能 高 效 地 找到 要 删除 的 行 ， 然 后 一 小 块 一 小 块 地 
移 除 。 通 常 需要 平衡 一 次 归档 的 行 数 和 事务 的 大 小 ， 以 找到 一 个 锁 竞 争 和 事务 负载 
量 的 平衡 。 还 需要 设计 归档 任务 在 必要 的 时 候 让 步 于 事务 处 理 。 

要 归档 的 行 
当知 道 某 些 数据 不 再 使 用 后 ， 就 可 以 立刻 清理 或 归档 它们 。 也 可 以 设计 应 用 去 归档 
那些 几乎 不 怎么 使 用 的 数据 。 可 以 把 归档 的 数据 置 于 核心 表 附 近 ， 通 过 视图 来 访问 ， 
或 完全 转移 到 别 的 服务 器 上 。 

维护 数据 一 致 性 
当 数 据 间 存在 联系 时 ， 会 导致 归档 和 清理 工作 更 加 复杂 。 一 个 设计 良好 的 归档 任务 
能 够 保证 数据 的 逻辑 一 致 性 ， 或 至 少 在 应 用 需要 时 能 够 保证 一 致 ， 而 无 须 在 大 量 事 
务 中 包含 多 个 表 。 
当 表 之 间 存 在 关系 时 ， 哪 个 表 首 先 归档 是 个 问题 。 在 归档 时 需要 考虑 孤立 行 的 影响 。 
可 以 选择 违背 外 键 约束 (可 以 通过 执行 SET FOREIGN KEY_CHECKS=0 禁止 InnoDB 的 
外 键 约束 ) 或 暂时 把 “悬空 指针 ” (dangling pointer) 记录 放 到 一 边 。 如 果 应 用 层 认 
为 这 些 相 关联 的 表 具 有 层次 关系 ， 那 么 归档 的 顺序 也 应 该 和 它 一 样 。 例 如 ， 如 果 应 
用 总 是 先 检 查 订单 再 检查 发 货 单 ， 就 先 归档 订单 。 应 用 应 该 看 不 到 孤立 的 发 货 单 ， 
因此 接 下 来 就 可 以 将 发 货 单 归档 。 

避免 数据 丢失 
如 果 是 在 服务 器 间 归 档 ， 归 档期 间 可 能 就 无 法 做 分 布 式 事务 处 理 ， 也 有 可 能 将 数据 
归档 到 MyISAM 或 其 他 非 事务 型 的 存储 引 敬 中。 因此， 为 了 避免 数据 丢失 ， 在 从 源 
表 中 删除 时 ， 要 保证 已 经 在 目标 机 器 上 保存 。 将 归档 数据 单独 写 到 一 个 文件 里 也 是 
个 好 主意 。 可 以 将 归档 任务 设计 为 能 够 随时 关闭 或 重启 ， 并 且 不 会 引起 不 一 致 或 索 


注 10 : 我 们 将 Akiban 包含 在 集群 数据 库 列 表 中 可 能 并 不 准确 ， 因 为 它 并 不 是 真正 的 集群 数据 库 。 但 在 某 
种 程度 上 它 和 其 他 一 些 NewSQL 数据 库 很 像 。 
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引 冲 突 之 类 的 错误 。 

解除 归档 (unarchiving) 
可 以 通过 一 些 解 除 归档 策略 来 减少 归档 的 数据 量 。 它 可 以 帮助 你 归档 那些 不 确定 是 
盏 需要 的 数据 ， 并 在 以 后 可 以 通过 选项 进行 回 退 。 如 果 可 以 设置 一 些 检 查 点 让 系统 
来 检查 是 否 有 需要 归档 的 数据 ， 那 么 这 应 该 是 一 个 很 容易 实现 的 策略 。 例 如 ， 要 对 
不 活跃 的 用 户 进行 归档 ， 检 查 点 就 可 以 设置 在 登录 验证 上 时。 如果 因 为 用 户 不 存在 导 
致 登录 失败 ， 可 以 去 检查 归档 数据 中 是 否 存在 该 用 户 ， 如 果 有 ， 则 从 中 取出 来 并 完 
成 登录 。 
ae Percona Toolkit 包含 的 工具 pt-archiver 能 够 帮助 你 有 效 地 归档 和 清理 MySQL K, 
(Bas 但 不 提供 解除 归档 功能 。 


保持 活跃 数据 独立 
即使 并 不 真 的 把 老 数据 转移 到 别 的 服务 器 ， 许 多 应 用 也 能 受益 于 活跃 数据 和 非 活跃 数据 
的 隔离 。 这 有 助 于 高 效 利 用 缓存 ， 并 为 活跃 和 不 活跃 的 数据 使 用 不 同 的 硬件 或 应 用 架构 。 
下 面 列举 了 几 种 做 法 : 


将 表 划 分 为 几 个 部 分 
分 表 是 一 种 比较 明智 的 办 法 ， 特 别 是 整 张 表 无 法 完全 加 载 到 内 存 时 。 例 如 ， 可 
以 把 users 表 划 分 为 active users 和 inactive users 表 。 你 可 能 认为 这 并 不 需 
要 ， 因 为 数据 库 本 身 只 缓存 “ 热 ” 数据 ， 但 事实 上 这 取决 于 存储 引擎 。 如 果 用 的 是 
InnoDB， 每 次 缓存 一 页 ， 而 一 页 能 存储 100 个 用 户 , 但 只 有 10% 是 活跃 的 ， 那 么 
这 时 候 InnoDB 可 能 认为 所 有 的 页 都 是 “ 热 ”的 一 一 因此 每 个 “ 热 ” 页 的 90% 将 被 
浪费 掉 。 将 其 拆 成 两 个 表 可 以 明显 改善 内 存 利 用 率 。 

MySQL 分 区 
MySQL 5.1 本 身 提 供 了 对 表 进 行 分 区 的 功能 ， 能 够 帮助 把 最 近 的 数据 留 在 内 存 中 。 
第 7 章 详细 介绍 了 分 区 表 。 

基于 时 间 的 数据 分 区 
如 采 应 用 不 断 有 新 数据 进来 ， 一 般 新 数据 总 是 比 旧 数据 更 加 活跃 。 例 如 ， 我 们 知道 
博客 服务 的 流量 大 多 是 最 近 七 天 发 表 的 文章 和 评论 。 更 新 的 大 部 分 是 相同 的 数据 集 。 
因此 这 些 数据 被 完整 地 保留 在 内 存 中 ， 使 用 复制 来 保证 在 主 库 失 效 时 有 一 份 可 用 的 
备份 。 其 他 数据 则 完全 可 以 放 到 别 的 地 方 去 。 
我 们 也 看 到 过 这 样 一 种 设计 ， 在 两 个 节点 的 分 片上 存储 用 户 数据 。 新 数据 总 是 进入 
活跃 ”节点 ， 该 节点 使 用 更 大 的 内 存 和 快速 硬盘 ， 另 外 一 个 节点 存储 旧 数 据 ， 使 用 
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非常 大 (但 比较 慢 ) 的 硬盘 。 应 用 假设 不 太 会 需要 旧 数 据 。 对 于 很 多 应 用 而 言 这 是 
合理 的 假设 ， 依 靠 10% 的 最 新 数据 能 够 满足 90% 或 更 多 的 请 求 。 
可 以 通过 动态 分 片 来 轻松 实现 这 种 策略 。 例 如 ， 分 片 目 录 表 可 能 定义 如 下 : 


CREATE TABLE users ( 


user_id int unsigned not null, 
shard_new int unsigned not null, 
shard_archive int unsigned not null, 


archive timestamp timestamp, 
PRIMARY KEY (user id) 
); 
通过 一 个 归档 脚本 将 旧 数 据 从 活跃 节点 转移 到 归档 节点 ， 当 移动 用 户 数据 到 归档 节 
点 时 ， 更 新 archive timestamp 列 的 值 。shard_new 和 shard_archive 列 记录 存储 
数据 的 分 片 号 。 


11.3 负载 均衡 
负载 均衡 的 基本 思路 很 简单 ; 在 一 个 服务 器 集群 中 尽 可 能 地 平均 负载 量 。 通 常 的 做 法 是 
在 服务 器 前 端 设置 一 个 负载 均衡 器 (一 般 是 专门 的 硬件 设备 ) 。 然 后 负载 均衡 器 将 请 求 


. 的 连接 路 由 到 最 空闲 的 可 用 服务 器 。 图 11-9 显示 了 一 个 典型 的 大 型 网 站 负载 均衡 设置 ， 
其 中 一 个 负载 均衡 器 用 于 HTTP 流量 ， 另 一 个 用 于 MySQL 访问 。 


负载 均衡 有 五 个 常见 目的 。 


可 扩展 性 
负载 均衡 对 某 些 扩展 策略 有 所 帮助 ， 例 如 读 写 分 离 时 从 备 库 读数 据 。 

高 效 性 i 
负载 均衡 有 助 于 更 有 效 地 使 用 资源 ， 因 为 它 能 够 控制 请 求 被 路 由 到 何 处 。 如 果 服 务 
器 处 理 能 力 各 不 相同 ， 这 就 尤为 重要 : 你 可 以 把 更 多 的 工作 分 配给 性 能 更 好 的 机 器 。 


.可 用 性 


一 个 灵活 的 负载 均衡 解决 方案 能 够 使 用 时 刻 保持 可 用 的 服务 器 。 
透明 性 

客户 端 无 须知 道 是 否 存在 负载 均衡 设置 ， 也 不 需要 关心 在 负载 均衡 器 的 背后 有 多 少 
机 器 ， 它 们 的 名 字 是 什么 。 负 载 均衡 器 给 客户 端 看 到 的 只 是 一 个 虚拟 的 服务 器 。 
一 致 性 

如 果 应 用 是 有 状态 的 (数据 库 事 务 ， 网 站 会 话 等 )， 那 么 负载 均衡 器 就 应 将 相关 的 查 

询 指 向 同一 个 服务 器 ， 以 防止 状态 丢失 。 应 用 无 须 去 跟踪 到 底 连接 的 是 哪个 服务 器 。 
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11-9: 一 个 典型 的 读 密集 型 网 站 负载 均衡 架构 


在 与 MySQL 相关 的 领域 里 ， 负 载 均衡 架构 通常 和 数据 分 片 及 复制 紧密 相关 。 你 可 以 
把 负载 均衡 和 高 可 用 性 结合 在 一 起 ， 部 署 到 应 用 的 任 一 层次 上 。 例 如 ， 可 以 在 MySQL 
Cluster 集群 的 多 个 SQL 节点 上 做 负载 均衡 ， 也 可 以 在 多 个 数据 中 心间 做 负载 均衡 ， 其 
中 每 个 数据 中 心 又 可 以 使 用 数据 分 片 架构 ， 每 个 市 点 实际 上 是 拥有 多 个 备 库 的 主 一 主 复 
制 对 结构 ， 这 里 又 可 以 做 负载 均衡 。 对 于 高 可 用 性 策略 也 同样 如 此 : 在 一 个 架构 里 可 以 
配置 多 层 的 故障 转移 机 制 。 


负载 均衡 有 许多 微妙 之 处 ， 举 个 例子 ， 其 中 一 个 挑战 就 是 管理 读 / 写 策略 。 有 些 负载 均 
衡 技 术 本 身 能 够 实现 这 一 点 , 但 其 他 的 则 需要 应 用 自己 知道 哪些 节点 是 可 读 的 或 可 写 的 。 


在 决定 如 何 实现 负载 均衡 时 ， 应 该 去 考虑 到 这 些 因 素 。 有 许多 负载 均衡 解决 方案 可 以 使 用 ， 
从 诸如 Wackamole (http://www.backhand.org/wackamole/) 这 样 基 于 端点 的 (peer-based) 
实现 , 到 DNS, LVS (Linux Virtual Server, Attp://www.linuxvirtualserver.org). WET 
载 均衡 器 、TCP (CH. MySQL Proxy， 以 及 在 应 用 中 管理 负载 均衡 。 
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在 我 们 的 客户 中 ， 最 普遍 的 策略 是 使 用 硬件 负载 均衡 器 ， 大 多 是 使 用 HAProxy (http:// 
haproxy.1wt.eu)， 它 看 起 来 很 流行 并 且 工 作 得 很 好 。 还 有 一 些 人 使 用 TCP 代理 ， 例 如 
Pen (http://siag.nu/pen/). {& MySQL Proxy 用 得 并 不 多 。 


11.3.1 直接 连接 

有 些 人 认为 负载 均衡 就 是 配置 在 应 用 和 了 MySQL 服务 器 之 间 的 东西 。 但 这 并 不 是 唯一 的 
负载 均衡 方法 。 你 可 以 在 保持 应 用 和 MySQL 连接 的 情况 下 使 用 负载 均衡 。 事 实 上 ， 集 
中 化 的 负载 均衡 系统 只 有 在 存在 一 个 对 等 置换 的 服务 器 池 时 才能 很 好 工作 。 如 果 应 用 需 
要 做 一 些 决策 ， 例 如 在 备 库 上 执行 读 操作 是 否 安全 ， 就 需要 直接 连接 到 服务 器 。 


除了 可 能 出 现 的 一 些 特定 逻辑 ， 应 用 为 负载 均衡 做 决策 是 非常 高 效 的 。 例 如 ， 如 果 有 两 
个 完全 相同 的 备 库 ， 你 可 以 使 用 其 中 的 一 个 来 处 理 特定 分 片 的 数据 查询 ， 另 一 个 处 理 其 
他 的 查询 。 这 样 能 够 有 效 利用 备 库 的 内 存 ， 因 为 每 个 备 库 只 会 缓存 一 部 分 数据 。 如 果 其 
中 一 个 备 库 失效 ， 另 外 一 个 备 库 拥有 所 有 的 数据 ， 仍 然 能 提供 服务 。 


接 下 来 的 小 市 将 讨论 一 些 应 用 直 连 的 常见 方法 ， 以 及 在 评估 每 一 个 选项 时 的 注意 点 。 


1. 复制 上 的 读 / 写 分 离 

MySQL 复制 产生 了 多 个 数据 副本 ， 你 可 以 选择 在 备 库 还 是 主 库 上 执行 查询 。 由 于 备 库 
复制 是 异步 的 ， 因 此 主要 的 难点 是 如 何 处 理 备 库 上 的 脏 数据 。 应 该 将 备 库 用 作 只 读 的 ， 
而 主 库 可 以 同时 处 理 读 和 写 查询 。 


通常 需要 修改 应 用 以 适应 这 种 分 离 需 求 。 然 后 应 用 就 可 以 使 用 主 库 来 进行 写 操作 ， 并 将 
读 操作 分 配 到 主 库 和 备 库 上 ;如 果 不 太 关心 数据 是 否 是 脏 的 ， 可 以 使 用 备 库 ， 而 对 需要 
即时 数据 的 请 求 使 用 主 库 。 我 们 将 这 称 为 读 / 写 分 离 。 


如 果 使 用 的 是 主动 一 被 动 模式 的 主 一 主 复制 对 ， 同 样 也 要 考虑 这 个 问题 。 使 用 这 种 配置 
时 ,只 有 主动 服务 器 接受 写 操作 。 如 果 能 够 接受 读 到 脏 数据 , 可 以 将 读 分 配给 被 动 服务 器 。 


最 大 的 问题 是 如 何 避 免 由 于 读 了 脏 数 据 引起 的 奇怪 问题 。 一 个 典型 的 例子 是 当 一 个 用 户 
做 了 某 些 修改 , 例如 增加 了 一 条 博客 文章 的 评论 , 然后 重新 加 载 页 面 , 但 并 没有 看 到 更 新 ， 
因为 应 用 从 备 库 读 取 到 了 脏 的 数据 。 

比较 常见 的 读 / 写 分 离 方法 如 下 : 


基于 查询 分 离 
最 简单 的 分 离 方 法 是 将 所 有 不 能 容忍 脏 数据 的 读 和 写 查询 分 配 到 主动 或 主 库 服务 器 
上 。 其 他 的 读 查 询 分 配 到 备 库 或 被 动 服务 器 上 。 该 策略 很 容易 实现 ， 但 事实 上 无 法 
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有 效 地 使 用 备 库 ， 因 为 只 有 很 少 的 查询 能 容忍 脏 数据 。 

基于 脏 数 据 分 离 
这 是 对 基于 查询 分 离 方法 的 小 改进 。 需 要 做 一 些 额外 的 工作 ， 让 应 用 检查 复制 延迟 ， 
以 确定 备 库 数据 是 否 太 旧 。 许 多 报表 类 应 用 都 使 用 这 个 策略 : 只 需要 晚上 加 载 的 数 
据 复 制 到 备 库 即 可 ， 它 们 并 不 关心 是 不 是 100% 跟 上 了 主 库 。 

基于 会 话 分 离 
另 一 个 决定 能 否 从 备 库 读 数据 的 稍微 复杂 一 点 的 方法 是 判读 用 户 自己 是 否 修改 了 数 
据 。 用 户 不 需要 看 到 其 他 用 户 的 最 新 数据 ， 但 需要 看 到 自己 的 更 新 。 可 以 在 会 话 层 
设置 一 个 标记 位 ， 表 明 做 了 更 新 ， 就 将 该 用 户 的 查询 在 一 段 时 间 内 总 是 指向 主 库 。 
这 是 我 们 通常 推荐 的 策略 ， 因 为 它 是 在 简单 和 有 效 性 之 间 的 一 种 很 好 的 妥协 。 
如 果 有 足够 的 想象 力 ， 可 以 把 基于 会 话 的 分 离 方法 和 复制 延迟 监控 结合 起 来 。 如 果 
用 户 在 10 秒 前 更 新 了 数据 ， 而 所 有 备 库 延迟 在 5 秒 内 ， 就 可 以 安全 地 从 备 库 中 读 取 
数据 。 但 为 整个 会 话 选择 同一 个 备 库 是 一 个 很 好 的 主意 ， 否 则 用 户 可 能 会 奇怪 有 些 
备 库 的 更 新 速度 比 其 他 服务 器 要 慢 。 

基于 版 本 分 离 
这 和 基于 会 话 的 分 离 方 法 相似 : 你 可 以 跟踪 对 象 的 版 本 号 以 及 /或 者 时 间 惟 ， 通 过 
从 备 库 读 取 对 象 的 版 本 或 时 间 改 来 判断 数据 是 否 足够 新 。 如 果 备 库 的 数据 太 旧 ， 可 
以 从 主 库 获取 最 新 的 数据 。 即 使 对 象 本 身 没 有 变化 ， 但 如 果 是 顶层 对 象 ， 只 要 下 面 
的 任何 对 象 有 变化 ， 也 可 以 增加 版 本 号 ， 这 简化 了 脏 数据 检查 (只 需要 检查 顶层 对 
象 一 处 就 能 判断 是 否 有 更 新 ) 。 例 如 ， 在 用 户 发 表 了 一 篇 新 文章 后 ， 可 以 更 新 用 户 的 
版 本 。 这 样 就 会 从 主 库 去 读 取 数据 了 。 

基于 全 局 版 本 /会 话 分 离 
这 个 办 法 是 基于 版 本 分 离 和 基于 会 话 分 离 的 变种 。 当 应 用 执行 写 操作 时 ， 在 提交 事 
务 后 ， 执 行 一 次 SHOW MASTER STATUS 操作 。 然 后 在 缓存 中 存储 主 库 日 志 坐 标 ， 作 
为 被 修改 对 象 以 及 /或 者 会 话 的 版 本 号 。 当 应 用 连接 到 备 库 时 ， 执行 SHOW SLAVE 
STATUS 并 将 备 库 上 的 坐标 和 缓存 中 的 版 本 号 相对 比 。 如 果 备 库 相 比 记 录 点 更 新 ， 就 
可 以 安全 地 读 取 备 库 数 据 。 


大 多 数 读 / 写 分 离 解决 方案 都 需要 监控 复制 延迟 来 决策 读 查询 的 分 配 ， 不 管 是 通过 复制 
或 负载 均衡 妖 ， 或 是 一 个 中 间 系 统 。 如 果 这 么 做 ， 需 要 注意 通过 SHOW SLAVE STATUS 得 
到 的 Seconds_behind_master 列 的 值 并 不 能 准确 地 用 于 监控 延迟 。( 详 情 参 阅 第 10%), 
Percona Toolkit 中 的 pt-heartbeat 工具 能 够 帮助 监控 延迟 ， 并 维护 元 数据 ， 例 如 二 进 制 日 
志 人 位置， 这 可 以 减轻 之 前 我 们 讨论 的 一 些 策略 存在 的 问题 。 


如 采 不 在 乎 用 时 贵 的 硬件 来 承载 压力 ， 也 就 可 以 不 使 用 复制 来 扩展 读 操作 ， 这 样 当 然 更 
简单 。 这 可 以 避免 在 主 备 上 分 离 读 的 复杂 性 。 有 些 人 认为 这 很 有 意义 ; 也 有 人 认为 会 浪 
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费 硬件 。 这 种 分 歧 是 由 于 不 同 的 目的 引起 的 , 你 是 只 需要 可 扩展 性 ， 还 是 要 同时 具有 可 
扩展 性 和 高 利用 率 ? 如 果 需 要 高 利用 率 ， 那 么 备 库 除了 保存 数据 副本 外 还 需要 承担 其 他 
任务 ， 就 不 得 不 处 理 这 些 额外 的 复杂 度 。 


2. 修改 应 用 的 配置 

还 有 一 个 分 发 负载 的 方法 是 重新 配置 应 用 。 例 如 ， 你 可 以 配置 多 个 机 器 来 分 担 生 成 大 报 
表 操 作 的 负载 。 每 台 机 器 可 以 配置 成 连接 到 不 同 的 MySQL 备 库 ， 并 为 第 N 个 用 户 或 网 
站 生成 报表 。 


这 样 的 系统 很 容易 实现 ， 但 如 果 需 要 修改 一 些 代 码 一 一 包括 配置 文件 修改 一 一 会 变 得 脆 
弱 且 难以 处 理 。 硬 编码 有 着 固有 的 限制 ， 需 要 在 每 台 服 务 器 上 修改 硬 编码 ， 或 者 在 一 个 
中 心服 务 器 上 修改 ， 然 后 通过 文件 副本 或 代码 控制 更 新 命令 “发 布 ”到 其 他 服务 器 上 。 
如 果 将 配置 存储 在 服务 器 或 缓存 中 ， 就 可 以 避免 这 些 麻 烦 。 


3. 修改 DNS 名 

这 是 一 个 比较 粗糙 的 负载 均衡 技术 ， 但 对 于 一 些 简单 的 应 用 ， 为 不 同 的 目的 创建 DNS 
还 是 很 实用 的 。 你 可 以 为 不 同 的 服务 器 指定 一 个 合适 的 名 字 。 最 简单 的 方法 是 只 读 服务 
器 拥有 一 个 DNS 名 ， 而 给 负责 写 操作 的 服务 器 起 另外 一 个 DNS 名 。 如 果 备 库 能 够 跟 上 
主 库 ， 那 就 把 只 读 DNS 名 指定 给 备 库 ， 当 出 现 延 迟 时 ， 再 将 该 DNS 名 指定 给 主 库 。 


这 种 DNS 技术 非常 容易 实现 ， 但 也 有 很 多 缺点 。 最 大 的 问题 是 无 法 完全 控制 DNS。 


。 修改 DNS 并 不 是 立刻 生效 的 ， 也 不 是 原子 的 。 将 DNS 的 变化 传递 到 整个 网 络 或 在 
网 络 间 传 播 都 需要 比较 长 的 时 间 。 

。 DNS 数据 会 在 各 个 地 方 缓存 下 来 ， 它 的 过 期 时 间 是 建议 性 质 的 ， 而 非 强 制 的 。 

。 可 能 需要 应 用 或 服务 器 重启 才能 使 修改 后 的 DNS 完全 生效 。 

© 多 个 IP 地址 共用 一 个 DNS 名 并 依赖 于 轮 询 行为 来 均衡 请 求 ， 这 并 不 是 一 个 好 主意 。 
因为 轮 询 行为 并 不 总 是 可 预知 的 。 

。 DBA 可 能 没有 权限 直接 访问 DNS. 


除非 应 用 非常 简单 ， 否 则 依赖 于 不 受 控 制 的 系统 会 非常 危险 。 你 可 以 通过 修改 /etc/hosts 
文件 而 非 DNS 来 改善 对 系统 的 控制 。 当 发 布 一 个 对 该 文件 的 更 新 时 ， 会 知道 该 变更 已 
经 生效 。 这 比 等 待 缓存 的 DNS 失效 要 好 得 多 。 但 这 仍然 不 是 理想 的 办 法 。 


我 们 通常 建议 人 们 构建 一 个 完全 不 依赖 DNS 的 应 用 。 即 使 应 用 很 简单 也 适用 ， 因 为 你 
无 法 预知 应 用 会 增长 到 多 大 规模 。 
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4. 转移 IP 地址 


一 些 负载 均衡 解决 方案 依赖 于 在 服务 器 间 转 移 虚 拟 地址 = ， 一 般 能 够 很 好 地 工作 。 这 听 
起 来 和 修改 DNS 很 像 ， 但 完全 是 两 码 事 。 服 务 器 不 会 根据 DNS 名 去 监听 网 络 流量 ， 而 
是 根据 指定 的 IP 地 址 去 监听 流量 ， 所 以 转移 IP 地 址 允许 DNS 名 保持 不 变 。 你 可 以 通过 
ARP (地 址 解析 协议 ) 命令 强制 使 IP 地 址 的 更 改 快速 而 且 原子 性 地 通知 到 网 络 上 。 


我 们 看 过 的 使 用 最 普遍 的 技术 是 Pacemaker， 这 是 Linux-HA 项 目的 Heartbeat 工具 的 继 
承 者 。 你 可 以 使 用 单个 IP 地 址 ， 为 其 分 配 一 个 角色 ， 例 如 read-only， 当 需要 在 机 器 间 
转移 IP 地 址 时 ， 它 能 够 感知 到 。 其 他 类 似 的 工具 包括 LVS 和 Wackamole。 


一 个 比较 方便 的 技术 是 为 每 个 物理 服务 器 分 配 一 个 固定 的 IP 地址。 该 IP 地址 固定 在 服 
务 器 上 ， 不 再 改变 。 然 后 可 以 为 每 个 逻辑 上 的 “服务 ”使 用 一 个 虚拟 IP 地 址 。 它 们 能 
很 方便 地 在 服务 器 间 转 移 ， 这 使 得 转移 服务 和 应 用 实例 无 须 再 重新 配置 应 用 ， 因 此 更 加 
容易 。 即 使 不 怎么 经 常 转移 IP 地 址 ， 这 也 是 一 个 很 好 的 特性 。 


11.3.2 引入 中 间 件 

迄今 为 止 ， 我 们 所 讨论 的 方案 都 假定 应 用 跟 MySQL 服务 器 是 直接 相连 的 。 但 是 许多 负 

载 均衡 解决 方案 都 会 引入 一 个 中 间 件 ， 作 为 网 络 通信 的 代理 。 它 一 边 接 受 所 有 的 通信 请 

求 ， 另 一 边 将 这 些 请 求 派发 到 指定 的 服务 器 上 ， 然 后 把 执行 结果 发 送 回 请 求 的 机 器 上 。 

中 间 件 可 以 是 硬件 设备 或 是 软件 兰 2。 图 11-10 描述 了 这 种 架构 。 这 种 解决 方案 通常 能 工 

作 得 很 好 ， 当 然 除 非 为 负载 均衡 器 本 身 增 加 元 余 ， 这 样 才能 避免 单 点 故障 引起 的 整个 系 

Sr HE. AFUE, WN HAProxy， 到 许多 广为人知 的 商业 系统 ， 有 许多 负载 均衡 器 得 
到 了 成 功 的 应 用 。 


负载 均衡 器 





应 用 服务 器 


图 11-10: 作为 中 间 件 的 负载 均衡 器 


注 11 : 虚拟 了 地 址 不 是 直接 连接 到 任何 特定 的 计算 机 或 网 络 篇 口 ， 而 是 “漂浮 ”在 计算 机 之 间 。 
注 12 : 你 可 以 把 诸如 LVS 这 样 的 解决 方案 配置 成 只 有 应 用 需要 创建 一 个 新 连接 时 才 参 与 进来 ， 此 后 不 再 
作为 中 间 件 。 
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1. 负载 均衡 器 

在 市 场 上 有 许多 负载 均衡 硬件 和 软件 ， 但 很 少 有 专门 为 MySQL 服务 器 设计 的 主 ?。Web 
服务 器 通常 更 需要 负载 均衡 ， 因 此 许多 多 用 途 的 负载 均衡 设备 都 会 支持 HTTP， 而 对 其 
他 用 途 则 只 有 一 些 很 少 的 基本 特性 。MySQL 连接 都 只 是 正常 的 TCP/IP 连接 ， 所 以 可 以 
在 MySQL 上 使 用 多 用 途 负载 均衡 器 。 但 由 于 缺少 MySQL 专 有 的 特性 ， 因 此 会 多 一 些 
限制 。 


2: 


除非 负载 均衡 器 知道 MySQL 的 真实 负载 ， 否 则 在 分 发 请 求 时 可 能 无 法 做 到 很 好 的 
负载 均衡 。 不 是 所 有 的 请 求 都 是 等 同 的 ， 但 多 用 途 负载 均衡 器 通常 对 所 有 的 请 求 一 
视 同 仁 。 

许多 负载 均衡 器 知道 如 何 检查 一 个 HTTP 请 求 并 把 会 话 “ 国 定 ” 到 一 个 服务 器 上 以 
保护 在 Web 服务 器 上 的 会 话 状态 。MySQL 连接 也 是 有 状态 的 ， 但 负载 均衡 器 可 能 
并 不 知道 如 何 把 所 有 从 单个 HTTP 会 话 发 送 的 连接 请 求 “ 固 定 ” 到 一 个 MySQL Ak 
务 器 上 。 这 会 损失 一 部 分 效率 。( 如 果 单 个 会 话 的 请 求 都 是 发 到 同一 个 MySQL 服务 
器 ， 服 务 器 的 缓存 会 更 有 效率 。) 

连接 地 和 长 连接 可 能 会 阻碍 负载 均衡 器 分 发 连接 请 求 。 例 如 ， 假 如 一 个 连接 凶 打 开 
了 预先 配置 好 的 连接 数 ， 负 载 均衡 器 在 已 有 的 四 个 MySQL 服务 器 上 分 发 这 些 连 接 。 
现在 增加 了 两 个 以 上 的 MySQL 服务 器 。 由 于 连接 池 不 会 请 求 新 连接 ， 因 而 新 的 服 
务 器 会 一 直至 闲 着 。 池 中 的 连接 会 在 服务 器 间 不 公平 地 分 配 负载 ， 导 致 一 些 服务 器 
超出 负载 ， 一 些 则 几乎 没有 负载 。 可 以 在 多 个 层面 为 连接 设置 失效 时 间 来 缓解 这 个 
问题 ， 但 这 很 复杂 并 且 很 难 做 到 。 连 接 凶 方案 只 有 它们 本 身 能 够 处 理 负 载 均 衡 时 才 
能 工作 得 很 好 。 

许多 多 用 途 负 载 均 衡器 只 会 针对 HTTP 服务 器 做 健康 和 负载 检查 。 一 个 简单 的 负载 
均衡 器 最 少 能 够 核实 服务 器 在 一 个 TCP 端口 上 接受 的 连接 数 。 更 好 的 负载 均衡 器 能 
够 自动 发 起 一 个 HTTP 请 求 ， 并 检查 返回 值 以 确定 这 个 Web 服务 器 是 否 正 常 运 转 。 
MySQL 并 不 接受 到 3306 端口 的 HTTP 请 求 ， 因 此 需要 自己 来 构建 健康 检查 方法 。 
你 可 以 在 MySQL 服务 器 上 安装 一 个 HTTP 服务 器 软件 ， 并 将 负载 均衡 器 指向 一 个 
脚本 ， 这 个 脚本 检查 MySQL 服务 器 的 状态 并 返回 一 个 对 应 的 状态 值 *“"。 最 重要 的 
是 检查 操作 系统 负载 (通过 查看 /proc/loadavg)、 复 制 状 态 , 以 及 MySQL 的 连接 数 。 


负载 均衡 算法 


有 许多 算法 用 来 决定 哪个 服务 器 接受 下 一 个 连接 。 每 个 厂商 都 有 各 自 不 同 的 算法 ， 下 面 


注 13 : MySQL Proxy 是 个 例外 ， 但 目前 还 未 能 证 明 能 够 很 好 地 工作 ， 因 为 它 会 带 来 一 些 问 题 ， 例 如 延迟 


增加 以 及 可 扩展 性 瓶颈 。 


注 14 : 实际 上 ， 如 果 能 编码 实现 一 个 监听 80 端口 的 程序 ， 或 者 配置 xinetd 来 调用 程序 ， 甚 至 不 需要 再 安 
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装 一 个 Web 服务 器 。 
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这 个 清单 列 出 了 一 些 可 用 的 方法 : 


随机 
负载 均衡 器 随机 地 从 可 用 的 服务 器 地 中 选择 一 个 服务 器 来 处 理 请 求 。 
#514) 
负载 均衡 器 以 循环 顺序 发 送 请 求 到 服务 器 ， 例 如 : A, B, C, A, B, C. 
最 少 连 接 数 
下 一 个 连接 请 求 分 配给 拥有 最 少 活跃 连接 的 服务 器 。 
最 快 响应 
能 够 最 快 处 理 请 求 的 服务 器 接受 下 一 个 连接 。 当 服务 器 池 里 同时 存在 快速 和 慢 速 服 
务 器 时 ， 这 很 有 效 。 即 使 同样 的 查询 在 不 同 的 场景 下 运行 也 会 有 不 同 的 表现 ， 例 如 
当 查 询 结果 已 经 缓存 在 查询 缓存 中， 或 者 服务 器 缓存 中 已 经 包含 了 所 需要 的 数据 时 。 
哈 布 
负载 均衡 器 通过 连接 的 源 IP 地 址 进行 哈 希 ， 将 其 映射 到 池 中 的 同一 个 服务 器 上 。 每 
次 从 同一 个 IP 地 址 发 起 请 求 ， 负 载 均 衡器 都 会 将 请 求 发 送 给 同样 的 服务 器 。 只 有 当 
池 中 服务 器 数目 改变 时 这 种 绑 定 才 会 发 生变 化 。 
权重 
负载 均衡 器 能 够 结合 使 用 上 述 几 种 算法 。 例 如 ,你 可 能 拥有 单 CPU 和 双 CPU 的 机 器 。 
N CPU 机 器 有 接近 两 倍 的 性 能 ， 所 以 可 以 让 负载 均衡 器 分 派 两 倍 的 请 求 给 双 CPU 
机 器 。 


哪 种 算法 最 优 取决 于 具体 的 工作 负载 。 例 如 最 少 连 接 算法 ， 如 果 有 新 机 器 加 入 ， 可 能 会 
有 大 量 连 接 涌 入 该 服务 器 ， 而 这 时 候 它 的 缓存 还 没有 包含 热 数 据 。 本 书 第 一 版 的 作者 曾 
经 杀身 体验 了 这 种 情况 。 


你 需要 通过 测试 来 为 你 的 工作 负载 找到 最 好 的 性 能 。 除 了 正常 的 日 常 运转 ， 还 需要 考虑 
极端 情况 。 在 比较 极端 的 情况 下 一 一 例如 人 负载 升 高 , 修改 模式 , 或 者 多 台 服 务 器 下 线 
至 少 要 避免 系统 出 现 重大 错误 。 


我 们 这 里 只 描述 了 即时 处 理 请 求 的 算法 ， 无 须 对 连接 请 求 排队 。 但 有 时候 使 用 排队 算法 
可 能 更 有 效 。 例 如 ， 一 个 算法 可 能 只 维护 给 定 的 数据 库 服务 器 并 发 数目 ， 同 一 时 刻 只 允 
许 不 超过 个 活跃 事务 。 如 有 果 有 太 多 的 活跃 事务 ， 就 将 新 的 请 求 放 到 一 个 队列 里 ， 然 后 
让 可 用 服务 器 列表 的 第 一 个 来 处 理 它 。 有 些 连 接 凶 也 支持 队列 算法 。 





3. 在 服务 器 池 中 增加 / 移 除 服 务 器 | 
增加 一 个 服务 器 到 池 中 并 不 是 简单 地 插入 进去 ， 然 后 通知 负载 均衡 器 就 可 以 了 。 你 可 能 
以 为 只 要 不 是 一 下 子 涌 进 大 量 连接 请 求 就 可 以 了 ， 但 并 不 一 定 如 此 。 有 时 候 你 会 缓慢 增 
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加 一 台 服 务 器 的 负载 ， 但 一 些 缓存 还 是 “ 冷 ”的 服务 器 可 能 会 慢 到 在 一 段 时 间 内 都 无 法 
处 理 任 何 的 用 户 请 求 。 如 果 用 户 浏览 一 个 页 面 需要 30 秒 才能 返回 数据 ， 即 使 流量 很 小 ， 
这 个 服务 器 也 是 不 可 用 的 。 有 一 个 方法 可 以 避免 这 个 问题 ， 在 通知 负载 均衡 器 有 新 服务 
器 加 入 前 ， 可 以 暂时 把 SELECT 查询 映射 到 一 台 活 跃 服务 器 上 。 然 后 在 新 开启 的 服务 器 上 
读 取 和 重 放 活 跃 服务 器 上 的 日 志文 件 ， 或 者 捕捉 生产 服务 器 上 的 网 络 通信 ， 并 重 放 它 的 
一 部 分 查询 。Percona Toolkit 中 的 pt-query-digest 工具 能 够 有 所 帮助 。 男 一 个 有 效 的 办 
法 是 使 用 Percona Server 或 MySQL 5.6 的 快速 预 热 特性 。 


在 配置 连接 池 中 的 服务 器 时 ， 要 保证 有 足够 多 未 使 用 的 容量 ， 以 备 在 撤 下 服务 器 做 维护 
时 使 用 ， 或 者 当 服务 器 失效 时 可 以 派 上 用 场 。 每 台 服 务 器 上 都 应 该 保留 高 于 “足够 ”的 
容量 。 


要 确保 配置 的 限制 值 足 够 高 ， 即 使 从 池 中 撤 出 一 些 服务 器 也 能 够 工作 。 举 个 例子 ， 如 
果 你 发 现 每 个 MySQL 服务 器 一 般 有 100 个 连接 ， 应 该 设置 池 中 每 个 服务 器 的 max_ 
connections 值 为 200。 这 样 就 算 一 半 的 服务 器 失效 ， 服 务 器 池 整 体 也 能 处 理 同样 数量 


11.3.3 一 主 多 备 间 的 负载 均衡 

最 常见 的 复制 拓扑 结构 就 是 一 个 主 库 加 多 个 备 库 。 我 们 很 难 绕 开 这 个 架构 。 许 多 应 用 都 
假设 只 有 一 个 目标 机 器 用 于 所 有 的 写 操 作 ， 或 者 所 有 的 数据 都 可 以 从 单个 服务 器 上 获得 。 
尽管 这 个 架构 不 太 具 有 很 好 的 可 扩展 性 ， 但 可 以 通过 一 些 办 法 结合 负载 均衡 来 获得 很 好 
的 效果 。 本 小 市 将 讲述 其 中 的 一 些 技术 。 


功能 分 区 
正如 之 前 讨论 的 ， 对 于 特定 的 目的 可 以 通过 配置 备 库 或 一 组 备 库 来 极 大 地 扩展 容量 。 
一 些 比 较 向 见 的 功能 包括 报表 、 分 析 、 数 据 仓库 ， 以 及 全 文 检 索 。 在 第 10 章 有 更 多 
的 细 市 。 

过 滤 和 数据 分 区 
可 以 使 用 复制 过 滤 技 术 在 相似 的 备 库 上 对 数据 进行 分 区 (参考 第 10 章 )。 只 要 数据 
在 主 库 上 已 经 被 隔离 到 不 同 的 数据 库 或 表 中 ， 这 种 方法 就 可 以 奏效 。 不 六 的 是 ， 没 
有 内 建 的 办 法 在 行 级 别 上 进行 复制 过 鲈 。 你 需要 使 用 一 些 独 创 性 的 技术 来 实现 这 一 
A Bilan {ee FA fith 2 2 F— 2H I] PY 
即使 不 把 数据 分 区 到 各 个 备 库 上 ， 也 可 以 通过 对 读 进 行 分 区 而 不 是 随机 分 配 来 提高 
缓存 效率 。 例 如 ， 可 以 把 对 以 字母 A 一 M 开头 的 用 户 名 的 读 操作 分 配给 一 个 给 定 的 
备 库 ， 把 以 N 一 Z 开头 的 分 配给 另外 一 个 。 这 能 够 更 好 地 利用 每 台 机 器 的 缓存 ， 因 
为 分 离 读 更 可 能 在 缓存 中 找到 相关 的 数据 。 最 好 的 情况 下 ， 当 没有 写 操 作 了 时， 这样 


540 | 第 11 章 可 扩展 的 MySQL 


使 用 的 缓存 相当 于 两 台 服 务 器 缓存 的 总 和 。 相 比 之 下 ， 如 果 随 机 地 在 备 库 上 分 配 读 
操作 ， 每 个 机 器 的 缓存 本 质 上 还 是 重复 的 数据 ， 而 总 的 有 效 缓存 效率 和 一 个 备 库 组 
存 一 样 ， 不 管 你 有 多 少 台 备 库 。 

将 部 分 写 操 作 转 移 到 备 库 
主 库 并 不 总 是 需要 处 理 写 操作 中 的 所 有 工作 。 你 可 以 分 解 写 查询 ， 并 在 备 库 上 执行 
其 中 的 一 部 分 ， 从 而 显著 减少 主 库 的 工作 量 。 更 多 内 容 参 见 第 10 章 。 

Rik SARL 
ea ed li 
待 一 会 
aus eee 3 HEAT E MMO 更 多 内 容 
参见 第 10 章 。 

同步 写 操作 
也 可 以 使 用 MASTER POS WAIT() 函数 来 确保 写 操 作 已 经 被 同步 到 一 个 或 多 个 备 库 
上 。 如 果 应 用 需要 模拟 同步 复制 来 保证 数据 安全 性 ， 就 可 以 在 多 个 备 库 上 轮流 执行 
MASTER_P0S_WAIT() 函数 。 这 就 类 似 创建 了 一 个 “同步 屏障 ， 当 任意 一 个 备 库 出 现 
复制 延迟 时 ， 都 可 能 花费 很 长 时 间 完 成 ， 所 以 最 好 在 确实 需要 的 时 候 才 使 用 这 种 方 
法 。( 如 果 你 的 目的 只 是 确保 某 些 备 库 拥 有 事件 ， 可 以 只 等 待 一 台 备 库 接 收 到 事件 。 
MySQL 5.5 增加 了 半 同 步 复制 ， 能 够 支持 这 项 技术 。) 





11.4 总 结 


正确 地 扩展 MySQL 并 没有 看 起 来 那么 美好 。 从 第 一 天 就 建立 下 一 个 Facebook 架构 ， 这 
并 不 是 正确 的 方式 。 最 好 的 策略 是 实现 应 用 所 明确 需要 的 ， 并 为 可 能 的 快速 增长 做 好 预 
先 规划 ， 成 功 的 规划 是 可 以 为 任何 必要 的 措施 筹集 资金 以 满足 需求 。 


为 可 扩展 性 制定 一 个 数学 意义 上 的 定义 是 很 有 意义 的 ， 就 像 为 性 能 制定 了 一 个 精确 概念 
一 样 。USL 能 够 提供 一 个 有 帮助 的 框架 。 如 果 知 道 系统 无 法 做 到 线性 扩展 是 因为 诸如 
序列 化 或 交互 操作 的 开销 ， 将 可 以 帮助 你 避免 将 这 些 问题 带 入 到 应 用 中 。 同 时 ， 许 多 可 
扩展 性 问题 并 不 是 可 以 从 数学 上 定义 的 ; 可 能 是 由 于 组 织 内 部 的 问题 ， 例 如 缺少 团队 协 
作 或 其 他 不 适当 的 问题 。Neil J. Gunther 博士 所 写 的 Guerrilla Capacity Planning 以 及 
Eliyahu M. Goldratt SAY The Goal 可 以 帮助 有 兴趣 的 读者 了 解 为 什么 系统 无 法 扩展 。 


在 MySQL 扩展 策略 方面 ， 典 型 的 应 用 在 增长 到 非常 庞大 时 ， 通 常 先 从 单个 服务 器 转移 
到 向 外 扩展 的 拥有 读 备 库 的 架构 ， 再 到 数据 分 片 和 /或 者 按 功能 分 区 。 我 们 并 不 同意 那 
些 提倡 为 每 个 应 用 “尽早 分 片 ， 尽 量 分 片 ”(shard early, shard often) 的 建议 。 这 很 复杂 
且 代 价 昂贵 ， 并 且 许 多 应 用 可 能 根本 不 需要 。 可 以 花 一 些 时 间 去 看 看 新 的 硬件 和 新 版 本 


11.4 总 结 | 541 


HJ MySQL 有 哪些 变化 ， 或 者 MySQL Cluster 有 哪些 新 的 进展 ， 甚 至 去 评估 一 些 专门 的 
系统 ， 例 如 Clustrix。 上 毕竟 数据 分 片 是 一 个 手工 搭建 的 集群 系统 ， 如 果 设 有 必要 ， 最 好 
不 要 重复 发 明 轮 子 。 


当 存 在 多 个 服务 器 时 ， 可 能 出 现 跟 一 致 性 或 原子 性 相关 的 问题 。 我 们 看 到 的 最 普遍 的 问 
题 是 缺少 会 话 一 致 性 (在 网 站 上 发 表 一 篇 评论 ， 刷 新 页 面 ， 但 找 不 到 刚刚 发 布 的 评论 )， 
或 者 无 法 有 效 告诉 应 用 哪些 服务 器 是 可 写 的 ， 哪 些 是 可 读 的 。 后 一 种 可 能 更 严重 ， 如 果 
将 应 用 的 写 操 作 指 向 多 个 地 方 ， 就 会 不 可 避免 地 遭遇 数据 问题 ， 需 要 花费 大 量 时 间 而 且 
很 难 解 决 。 人 负载 均 衡器 可 以 解决 这 个 问题 ,但 它 本 身 也 有 一 些 问题 ， 有 了 时候 还 会 使 得 原 
本 希望 解决 的 问题 恶化 。 这 也 是 我 们 在 下 一 章 要 讲述 高 可 用 性 的 原因 。 
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第 12 章 
高 可 用 性 


本 章 将 讲述 我 们 提 到 的 复制 、 可 扩展 性 以 及 高 可 用 性 三 个 主题 中 的 第 三 个 。 归 根 结 底 ， 
高 可 用 性 实际 上 意味 着 “更 少 的 宕 机 时 间 ”。 然 而 精 糕 的 是 ， 高 可 用 性 经 常 和 其 他 相关 
的 概念 混淆 ， 例 如 元 余 、 保 障 数 据 不 丢失 ， 以 及 负载 均衡 。 我 们 希望 之 前 的 两 章 已 经 为 . 
清楚 地 理解 高 可 用 性 做 了 足够 的 铺垫 。 跟 其 他 两 章 一 样 ， 这 一 章 也 不 仅仅 是 关注 高 可 用 
性 的 内 容 ， 一 些 相关 的 话题 也 会 综合 阐述 。 


12.1 什么 是 高 可 用 性 

高 可 用 性 实际 上 有 点 像 神秘 的 野兽 。 它 通常 以 百分比 表示 ， 这 本 身 也 是 一 种 暗示 : 高 可 
用 性 不 是 绝对 的 ,只 有 相对 更 高 的 可 用 性 。100% 的 可 用 性 是 不 可 能 达到 的 。 可 用 性 的 “9” 
规则 是 表示 可 用 性 目标 最 普遍 的 方法 。 你 可 能 也 知道 ,“5 个 9” 表 示 99.999% 的 正常 可 
用 时 间 。 换 名 话说 ， 每 年 只 允许 5 分 钟 的 宕 机 时 间 。 对 于 大 多 数 应 用 这 已 经 是 令 人 惊叹 
的 数字 ， 尽 管 还 有 一 些 人 试图 获得 更 多 的 “9”。 


每 个 应 用 对 可 用 性 的 需求 各 不 相同 。 在 设 定 一 个 可 用 时 间 的 目标 之 前 ， 先 问 问 自己 ,是 
不 是 确实 需要 达到 这 个 目标 。 可 用 性 每 提高 一 点 ， 所 花费 的 成 本 都 会 远 超 之 前 ; 可 用 性 
的 效果 和 开销 的 比例 并 不 是 线性 的 。 需 要 保证 多 少 可 用 时 间 ， 取 决 于 能 够 承担 多 少 成 本 。 
高 可 用 性 实际 上 是 在 宕 机 造成 的 损失 与 降低 宕 机 时 间 所 花费 的 成 本 之 间 取 一 个 平衡 。 换 
句 话说 ， 如 果 需 要 花 大 量 金钱 去 获得 更 好 的 可 用 时 间 ， 但 所 带 来 的 收益 却 很 低 ， 可 能 就 
不 值得 去 做 。 总 的 来 说 ， 应 用 在 超过 一 定 的 点 以 后 追求 更 高 的 可 用 性 是 非常 困难 的 ， 成 
本 也 会 很 高 ， 因 此 我 们 建议 设 定 一 个 更 现实 的 目标 并 且 避 免 过 度 设 计 。 幸 和 运 的 是 ， 建 立 
2 个 9 或 3 个 9 的 可 用 时 间 的 目标 可 能 并 不 困难 ， 有 具体 情况 取决 于 应 用 。 
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有 时 候 人 们 将 可 用 性 定义 成 服务 正在 运行 的 时 间 段 。 我 们 认为 可 用 性 的 定义 还 应 该 包括 
应 用 是 否 能 以 足够 好 的 性 能 处 理 请 求 。 有 许多 方法 可 以 让 一 个 服务 器 保持 运行 ， 但 服务 
并 不 是 真正 可 用 。 对 一 个 很 大 的 服务 器 而 言 ， 重 启 MySQL 之 后 ， 可 能 需要 几 个 小 时 才 
能 充分 预 热 以 保证 查询 请 求 的 响应 时 间 是 可 以 接受 的 ， 即 使 服务 器 只 接收 了 正常 流量 的 
一 小 部 分 也 是 如 此 。 


另 一 个 需要 考虑 的 问题 是 ， 即 使 应 用 并 没有 停止 服务 ， 但 是 否 可 能 丢失 了 数据 。 如 采 服 
务 器 遭遇 灾难 性 故障 ， 可 能 多 少 都 会 丢失 一 些 数据 ， 例 如 最 近 已 经 写 入 (最 新 丢失 的 ) 
二 进 制 日 志 但 尚未 传递 到 备 库 的 中 继 日 志 中 的 事务 。 你 能 够 容忍 吗 ? 大 多 数 应 用 能 够 容 
D ;因为 奉 代 方案 大 多 非常 昂贵 且 复 杂 , 或 者 有 一 些 性 能 开销 。 例 如 , 可 以 使 用 同步 复制 ， 
或 是 将 二 进 制 日 志 放 到 一 个 通过 DRBD 进行 复制 的 设备 上 ， 这 样 就 算 服 务 器 完全 失效 也 
不 用 担心 丢失 数据 。( 但 是 整个 数据 中 心 也 有 可 能 会 掉 电 。) 


一 个 良好 的 应 用 架构 通常 可 以 降低 可 用 性 方面 的 需求 ， 至 少 对 部 分 系统 而 言 是 这 样 的 ， 


良好 的 架构 也 更 容易 做 到 高 可 用 。 将 应 用 中 重要 和 不 重要 的 部 分 进行 分 离 可 以 市 约 不 少 


工作 量 和 金钱 ， 因 为 对 于 一 个 更 小 的 系统 改进 可 用 性 会 更 容易 。 可 以 通过 计算 “风险 敞 
A (risk exposure)”， 将 失效 概率 与 失效 代价 相 乘 来 确认 高 优先 级 的 风险 。 画 一 个 简单 
的 风险 计算 表 ， 以 概率 、 代 价 和 风险 敞 口 作 为 列 ， 这 样 很 容易 找到 需要 优先 处 理 的 项 目 。 


在 前 一 章 我 们 通过 讨论 如 何 避免 导致 精 糕 的 可 扩展 性 的 原因 ， 来 推出 如 何 获得 更 好 的 可 
扩展 性 。 这 里 也 会 使 用 相似 的 方法 来 讨论 可 用 性 ， 因 为 我 们 相信 ， 理 解 可 用 性 最 好 的 广 
法 就 是 研究 它 的 反面 一 宕 机 时 间 。 接 下 来 的 小 节 我 们 会 讨论 为 什么 会 出 现 宕 机 。 


12.2 导致 宕 机 的 原因 


我 们 经 常 听 到 导致 数据 库 宕 机 最 主要 的 原因 是 编写 的 SQL 查询 性 能 很 差 ， 真 的 是 这 样 
吗 ? 2009 年 我 们 决定 分 析 我 们 客户 的 数据 库 所 遇 到 的 问题 ， 以 找 出 那些 真正 引起 和 宕 机 
的 问题 ,以 及 如 何 避 免 这 些 问 题 ='。 结 果 证 实 了 一 些 我 们 已 有 的 猜想 ,但 也 否定 了 一 些 ( 错 
误 的 ) 认识 ， 我 们 从 中 学 到 了 很 多 。 


我 们 首先 对 宕 机 事件 按 表 现 方式 而 非 导致 的 原因 进行 分 类 。 一 般 来 说 ,， 运行 环境 ”是 
排名 第 一 的 宕 机 类 别 ， 大 约 35% 的 事件 属于 这 一 类 。 运 行 环境 可 以 看 作 是 支持 数据 库 服 
务 器 运行 的 系统 和 资源 集合 ， 包 括 操作 系统 、 硬 盘 以 及 网 络 等 。 性 能 问题 紧 随 其 后 ， 也 
是 约 占 35% ; 然后 是 复制 ， 占 20% ; 最 后 剩 下 的 10% 包含 各 种 类 型 的 数据 丢失 或 损坏 ， 
以 及 其 他 问题 。 

注 1: ”我 们 在 一 个 宛 长 的 白皮书 中 完整 地 描述 了 对 客户 的 宕 机 事故 的 分 析 ， 并 于 随后 在 另 一 份 白皮书 中 


介绍 了 如 何 防 止 宕 机 , 包括 可 以 定期 执行 的 详细 检查 清单 。 本 书 没有 这 么 多 篇 幅 来 描述 所 有 的 细节 ， 
你 可 以 从 Percona 的 网 站 (http:/www.percona.com) 获得 这 两 份 白皮书 。 
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我 们 对 事件 按 类 型 进行 分 类 后 ， 确 定 了 导致 这 些 事件 的 原因 。 以 下 是 一 些 需要 注意 的 
地 方 : 


e 在 运行 环境 的 问题 中 ， 最 普遍 的 问题 是 磁盘 空间 耗 尽 。 

。 在 性 能 问题 中 ， 最 普遍 的 宕 机 原因 确实 是 运行 很 糟糕 的 SQL， 但 也 不 一 定 都 是 这 个 
原因 ， 比 如 也 有 很 多 问题 是 由 于 服务 器 Bug 或 错误 的 行为 导致 的 。 

© 精 粒 的 Schema 和 索引 设计 是 第 二 大 影响 性 能 的 问题 。 

。 复制 问题 通常 由 于 主 备 数据 不 一 致 导致 。 

© 数据 丢失 问题 通常 由 于 DROP TABLE 的 误 操 作 导 致 ， 并 总 是 伴随 着 缺少 可 用 备份 的 问 
题 。 


复制 虽然 常 被 人 们 用 来 改善 可 用 时 间 ， 但 却 也 可 能 导致 宕 机 。 这 主要 是 由 于 不 正确 的 使 
用 导致 的 , 即便 如 此 , 它 也 曾 明 了 一 个 普遍 的 情况 :许多 高 可 用 性 策略 可 能 会 产生 反作用 ， 
我 们 会 在 后 面 讨论 这 个 话题 。 


现在 我 们 已 经 知道 了 主要 宕 机 类 别 ， 以 及 有 什么 需要 注意 ， 下 面 我 们 将 专门 介绍 如 何 获 
得 高 可 用 性 。 


12.3 如 何 实现 高 可 用 性 


可 以 通过 同时 进行 以 下 两 步 来 获得 高 可 用 性 。 首 先 ， 可 以 尝试 避免 导致 宕 机 的 原因 来 减 
少 宕 机 时 间 。 许 多 问题 其 实 很 容易 避免 ， 例 如 通过 适当 的 配置 、 监 控 ， 以 及 规范 或 安全 
保障 措施 来 避免 人 为 错误 。 第 二 ， 尽 量 保 证 在 发 生 宕 机 时 能 够 快速 恢复 。 最 常见 的 策略 
是 在 系统 中 制造 元 余 ， 并 且 有 具备 故障 转移 能 力 。 这 两 个 维度 的 部 可 用 性 可 以 通过 两 个 相 
关 的 度量 来 确定 : 平均 失效 时 间 (MTBF) 和 平均 恢复 时 间 (MTTR) 。 一 些 组 织 会 非常 
仔细 地 追踪 这 些 度 量 值 。 


第 二 步 一 一 通过 宛 余 快速 恢复 一 一 很 不 幸 ， 这 里 是 最 应 该 注意 的 地 方 ， 但 预防 措施 的 投 
资 回报 率 会 很 高 。 接 下 来 我 们 来 探讨 一 些 预 防 措施 。 





12.3.1 提升 平均 失效 时 间 (MTBF) 

其 实 只 要 尽职 尽责 地 做 好 一 些 应 做 的 事情 ， 就 可 以 避免 很 多 宕 机 。 在 分 类 整理 宕 机 事件 
并 追查 导致 宕 机 的 根源 时 ， 我 们 还 发 现 ， 很 多 宕 机 本 来 是 有 一 些 方法 可 以 避免 的 。 我 们 
发 现 大 部 分 宕 机 事件 都 可 以 通过 全 面 的 常识 性 系统 管理 办 法 来 避免 。 以 下 是 从 我 们 的 白 
皮 书 中 摘录 的 指导 性 建议 ， 在 白皮书 中 有 我 们 详细 的 分 析 结 果 。 
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测试 恢复 工具 和 流程 ， 包 括 从 备份 中 恢复 数据 。 

遵从 最 小 权限 原则 。 

保持 系统 干净 、 整 洁 。 

使 用 好 的 命名 和 组 织 约定 来 避免 产生 混乱 ， 例 如 服务 器 是 用 于 开发 还 是 用 于 生产 环 
Hi. 

谨慎 安排 升级 数据 库 服务 器 。 

在 升级 前 ， 使 用 诸如 Percona Toolkit 中 的 pt-upgrade 之 类 的 工具 仔细 检查 系统 。 
使 用 InnoDB 并 进行 适当 的 配置 ， 确 保 InnoDB 是 默认 存储 引擎 。 如 果 存 储 引 擎 被 禁 
止 ， 服 务 器 就 无 法 局 动 。 | 

确认 基本 的 服务 器 配置 是 正确 的 。 

通过 skip name resolve 禁止 DNS, 

除非 能 证 明 有 效 ， 否 则 禁用 查询 缓存 。 

避免 使 用 复杂 的 特性 ， 例 如 复制 过 滤 和 触发 器 ， 除 非 确 实 需要 。 

监控 重要 的 组 件 和 功能 ， 特 别 是 像 磁 盘 空 间 和 RAID 卷 状 态 这 样 的 关键 项 目 ， 但 也 
要 避免 误 报 ， 只 有 当 确 实 发 生 问题 时 才 发 送 告警 。 | 
尽量 记录 服务 器 的 状态 和 性 能 指数 ， 如 果 可 能 就 尽量 和 久 地 保存 。 

定期 检查 复制 完整 性 。 3 

将 备 库 设置 为 只 读 ， 不 要 让 复制 自动 启动 。 

定期 进行 查询 语句 审查 。 

归档 并 清理 不 需要 的 数据 。 

为 文件 系统 保留 一 些 空间 。 在 GNU/Linux 中 ， 可 以 使 用 -mn 选项 来 为 文件 系统 本 身 
保留 空间 。 还 可 以 在 LVM 卷 组 中 留 下 一 些 空 亲 空间。 或者， 更 简单 的 方法 ， 仅 仅 


创建 一 个 巨大 的 空 文件 ， 在 文件 系统 快 满 时 ， 直 接 将 其 删除 。 主 ? 


养 成 习惯 ， 评 估 和 管理 系统 的 改变 、 状 态 以 及 性 能 信息 。 


我 们 发 现 对 系统 变更 管理 的 缺失 是 所 有 导致 宕 机 的 事件 中 最 普遍 的 原因 。 典 型 的 错误 包 
括 粗心 的 升级 导致 升级 失败 并 遭遇 一 些 Bug， 或 是 尚未 测试 就 将 Schema 或 查询 语句 的 
更 改 直 接 运 行 到 线 上 ， 或 者 没有 为 一 些 失败 的 情况 制定 计划 ， 例 如 达到 了 磁盘 容量 限制 。 
另外 一 个 导致 问题 的 主要 原因 是 缺少 严格 的 评估 ， 例 如 因为 疏忽 没有 确认 备份 是 否 是 可 
以 恢复 的 。 最 后 ， 可 能 没有 正确 地 监控 MySQL 的 相关 信息 。 例 如 缓存 命中 率 报警 并 不 
能 说 明 出 现 问 题 ， 并 且 可 能 产生 大 量 的 误 报 ， 这 会 使 监控 系统 被 认为 不 太 有 用 ， 于 是 一 
些 人 就 会 忽略 报警 。 有 时 候 监控 系统 失效 了 ， 甚 至 没 人 会 注意 到 ， 直 至 你 的 老板 质问 你 ， 
“为 什么 Nagios 没有 告诉 我 们 磁盘 已 经 满 了 ”。 | 


22: 


， 这 是 100% 跨 平 台 兼 容 的 。 
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12.3.2 降低 平均 恢复 时 间 (MTTR) 

之 前 提 到 ， 可 以 通过 减少 恢复 时 间 来 获得 高 可 用 性 。 事 实 上 ， 一 些 人 走 得 更 远 ， 只 专注 
于 减少 恢复 时 间 的 某 个 方面 : 通过 在 系统 中 建立 元 余 来 避免 系统 完全 失效 ， 并 避免 单 点 
失效 问题 。 


在 降低 恢复 时 间 上 进行 投资 非常 重要 ， 一 个 能 够 提供 元 余 和 故障 转移 能 力 的 系统 架构 ， 
则 是 降低 恢复 时 间 的 关键 环节 。 但 实现 高 可 用 性 不 单单 是 一 个 技术 问题 ， 还 有 许多 个 人 
和 组 织 的 因素 。 组 织 和 个 人 在 避免 宕 机 和 从 宕 机 事件 中 恢复 的 成 熟 度 和 能 力 层次 各 不 相 
同 。 


团队 成 员 是 最 重要 的 高 可 用 性 资产 ， 所 以 为 恢复 制定 一 个 好 的 流程 非常 重要 。 拥 有 熟练 
技能 、 应 变 能 力 、 训练 有 素 的 雇员 , 以 及 处 理 紧 急事 件 的 详细 文档 和 经 过 仔细 测试 的 流程 ， 
对 从 宕 机 中 恢复 有 巨大 的 作用 。 但 也 不 能 完全 依赖 工具 和 系统 ， 因 为 它们 并 不 能 理解 实 
际 情况 的 细微 差别 ， 有 时 候 它们 的 行为 在 一 般 情 况 下 是 正确 的 ， 但 在 某 些 场景 下 却 会 是 
个 灾难 ! 


对 宕 机 事件 进行 评估 有 助 于 提升 组 织 学 习 能 力 ， 可 以 帮助 避免 未 来 发 生 相似 的 错误 ， 但 
是 不 要 对 “事后 反思 ”或 “事后 的 调查 分 析 ” 期 待 太 高 。 后 见 之 明 被 严重 曲解 ， 并 且 一 
味 想 找到 导致 问题 的 唯一 根源 , 这 可 能 会 影响 你 的 判断 力 ;。 许 多 流行 的 方法 , 例如 “五 
个 为 什么 ”， 可 能 会 被 过 度 使 用 ， 导 致 一 些 人 将 他 们 的 精力 集中 在 找到 唯一 的 替罪羊 。 很 
难 去 回顾 我 们 解决 的 问题 当时 所 处 的 状况 ， 也 很 难 理解 真正 的 原因 ， 因 为 原因 通常 是 多 
方面 的 。 因 此 ， 尽 管事 后 反思 可 能 是 有 用 的 ， 但 也 应 该 对 结论 有 所 保留 。 即 使 是 我 们 给 
出 的 建议 ， 也 是 基于 长 期 研究 导致 宕 机 事件 的 原因 以 及 如 何 预防 它们 所 得 ， 并 且 只 是 我 
们 的 观点 而 已 。 


这 里 我 们 要 反复 提醒 : 所 有 的 宕 机 事件 都 是 由 多 方面 的 失效 联合 在 一 起 导致 的 。 因 此 ， 
可 以 通过 利用 合适 的 方法 确保 单 点 的 安全 来 避免 。 整 个 链条 必须 要 打 断 ， 而 不 仅仅 是 单 
个 环 市 。 例 如 ， 那 些 向 我 们 求助 恢复 数据 的 人 不 仅 遵 受 数 据 丢 失 (存储 失效 ，DBA 误 操 
作 等 )， 同 时 还 缺少 一 个 可 用 的 备份 。 


这 样 说 来 ， 当 开始 调查 并 尝试 阻止 失效 或 加 速 恢 复 时 ， 大 多 数 人 和 组 织 不 应 太 过 于 内 次 ， 
而 是 要 专注 于 技术 上 的 一 些 措 施 一 一 特别 是 那些 很 酷 的 方法 ,例如 集群 系统 和 元 余 架 构 。 
这 些 是 有 用 的 ， 但 要 记 住 这 些 系统 依然 会 失效 。 事 实 上 ， 在 本 书 第 二 版 中 提 到 的 MMM 
复制 管理 ， 我 们 已 经 失去 了 兴趣 ， 因 为 它 被 证 明 可 能 导致 更 多 的 宕 机 时 间 。 你 应 该 不 会 


注 3: 这 里 推荐 两 篇 反 虹 常识 的 文章 : Richard Cook 的 论文 “How Complex Systems Fail” (http://www. 
ctlab.org/documents/How%20Complex%20Systems%20Fail.pdf) 和 Malcolm Gladwell 在 他 的 What the 
Dog Saw (Little, Brown) 一 书 中 关于 挑战 者 号 航天 飞机 灾难 事件 的 文章 。 
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573 


简单 


奇怪 一 组 Perl 脚本 会 陷于 混乱 ， 但 即使 是 特别 昂贵 并 精密 设计 的 系统 也 会 出 现 灾难 性 的 . 
失效 一 一 是 的 ,即使 是 花费 了 大 量 金 钱 的 SAN 也 是 如 此 ,我 们 已 经 见 过 太 多 的 SAN 失效 。 


12.4 避免 单 点 失效 

找到 并 消除 系统 中 的 可 能 失效 的 单 点 ， 并 结合 切换 到 备用 组 件 的 机 制 ， 这 是 一 种 通过 减 
少 恢复 时 间 (MTTR) 来 改善 可 用 性 的 方法 。 ROAR PR His BA , 有 时 候 甚至 能 将 实际 的 恢 
复 时 间 降 低 至 0， 但 总 的 来 说 这 很 困难 。( 即 使 一 些 非常 引 人 人 注目 的 技术 ， 例 如 昂贵 的 负 
载 均 衡器 ， 在 发 现 问 题 并 进行 反馈 时 也 会 导致 一 定 的 延迟 。) 


思考 并 梳理 整个 应 用 , 符 试 去 定位 任何 可 能 失效 的 单 点 。 是 一 个 硬盘 驱动 器 ,一 台 服 务 器 ， 
一 台 交 换 或 路 由 器 ， 还 是 某 个 机 架 的 电源 ? 所 有 数据 都 在 一 个 数据 中 心 ， 或 者 元 余数 据 
中 心 是 由 同一 个 公司 提供 的 吗 ? 系 统 中 任何 不 元 余 的 部 分 都 是 一 个 可 能 失效 的 单 点 。 其 
他 比较 普遍 的 单 点 失效 依赖 于 一 些 服 务 ， 例 如 DNS、 单 一 网 络 提 供 商 *、 单 个 云 “ 可 用 
区 域 ， 以 及 单个 电力 输送 网 ， 具 体 有 哪些 取决 于 你 的 关注 点 。 


单 点 失效 并 不 总 是 能 够 消除 。 增 加 宛 余 或 许 也 无 法 做 到 ， 因 为 有 些 限 制 无 法 避 开 ， 例 如 
地 理 位 置 ， 预 算 ， 或 者 时 间 限 制 等 。 试 着 去 理解 每 一 个 影响 可 用 性 的 部 分 ， 采 取 一 种 平 
衡 的 观点 来 看 待 风险 ， 并 首先 解决 其 中 影响 最 大 的 那个 。 一 些 人 试图 编写 一 个 软件 来 处 
理 所 有 的 硬件 失效 ， 但 软件 本 身 导致 的 宕 机 时 间 可 能 比 它 节 约 的 还 要 多 。 也 有 人 想 建立 
一 种 “ 永 不 沉没 ”的 系统 ， 包 括 各 种 元 余 ， 但 他 们 忘记 了 数据 中 心 可 能 掉 电 或 失去 连接 。 
或 许 他们 彻底 忘记 了 恶意 攻击 者 和 程序 错误 的 可 能 性 ， 这 些 情况 可 能 会 删除 或 损坏 数 
据 一 一 一 个 不 小 心 执行 的 DROP TABLE 也 会 产生 宕 机 时 间 。 


可 以 采用 两 种 方法 来 为 系统 增加 元 余 : 增加 空余 容量 和 重复 组 件 。 增 加 容量 余 量 通常 很 
可 以 使 用 本 章 或 前 一 章 讨 论 的 任何 技术 。 一 个 提升 可 用 性 的 方法 是 创建 一 个 集 
群 或 服务 器 池 ， 并 使 用 负载 均衡 解决 方案 。 如 果 一 台 服 务 器 失效 ， 其 他 服务 器 可 以 接管 
它 的 负载 。 有 些 人 有 意识 地 不 使 用 组 件 的 全 部 能 力 ， 这 样 可 以 保留 一 些 “ 动 态 余 量 ”来 
处 理 因为 负载 增加 或 组 件 失效 导致 的 性 能 问题 。 


出 于 很 多 方面 的 考虑 会 需要 元 余 组 件 ， 并 在 主要 组 件 失效 时 能 有 一 个 备件 来 随时 替换 。 
元 余 组 件 可 以 是 空闲 的 网 卡 、 路 由 器 或 者 硬盘 驱动 器 一 一 任何 能 想到 的 可 能 失效 的 东西 。 
完全 元 余 MySQL 服务 器 可 能 有 点 困难 ， 因 为 一 个 服务 器 在 没有 数据 时 毫 无 用 处 。 这 意 
味 着 你 必须 确保 备用 服务 器 能 够 获得 主 服务 器 上 的 数据 。 共 享 或 复制 存储 是 一 个 比较 流 
行 的 办 法 ， 但 这 真 的 是 一 个 高 可 用 性 架构 吗 ? 让 我 们 深入 其 中 看 看 。 








注 4: ”感觉 太 偏执 了 ? 检查 你 的 宛 余 网 络 连接 是 不 是 真 的 连接 到 不 同 的 互联 网 主干 ， 确 保 它 们 的 物理 位 
置 不 在 同一 条 街道 或 者 同一 个 电线 村 上 ， 这 样 它们 才 不 会 被 同一 个 挖 土 机 或 者 汽车 破坏 掉 。 
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12.4.1 共享 存储 或 磁盘 复制 


共享 存储 能 够 为 数据 库 服务 器 和 存储 解 耦合 ， 通 常 使 用 的 是 SAN。 使 用 共享 存储 时 ， 服 
务 堪 能 够 正常 挂 载 文件 系统 并 进行 操作 。 如 果 服 务 器 挂 了 ， 备 用 服务 器 可 以 挂 载 相同 的 
文件 系统 ， 执 行 需要 的 恢复 操作 ， 并 在 失效 服务 器 的 数据 上 启动 MySQL。 这 个 过 程 在 
逻辑 上 跟 修复 那 台 故障 的 服务 器 没什么 两 样 ， 不 过 更 快速 ， 因 为 备用 服务 器 已 经 启动 ， 
随时 可 以 运行 。 当 开始 故障 转移 时 ， 检 查 文件 系统 、 恢 复 InnoDB ARMA ERAT 
能 遇 到 延迟 的 地 方 ， 但 检测 失效 本 身 在 许多 设置 中 也 会 花费 很 长 时 间 。 


共享 存储 有 两 个 优点 : 可 以 避免 除 存储 外 的 其 他 任何 组 件 失 效 所 引起 的 数据 丢失 ， 并 为 
非 存储 组 件 建立 元 余 提 供 可 能 。 因 此 它 有 助 于 减少 系统 一 些 部 分 的 可 用 性 需求 ， 这 样 就 
可 以 集中 精力 关注 一 小 部 分 组 件 来 获得 高 可 用 性 。 不 过 ， 共 享 存储 本 身 仍 是 可 能 失效 的 
单 点 。 如 果 共 享 存储 失效 了 ， 那 整个 系统 也 失效 了 ， 尽 管 SAN 通常 设计 良好 ， 但 也 可 
能 失效 ， 有 时 候 需 要 特别 关注 。 就 算 SAN 本 身 拥 有 宛 余 也 会 失效 。 


主动 一 主动 访问 模式 的 共享 存储 怎么 样 ? 


gak SAN, NAS 或 者 集群 文件 系统 上 以 主动 一 主动 模式 运行 多 个 实例 怎么 样 ? 
MySQL 不 能 这 么 做 。 因 为 MySQL 并 没有 被 设计 成 和 其 他 MySQL 实例 同 
数据 的 访问 ， 所 以 无 法 在 同一 份 数据 上 开启 多 个 MySQL 实例 。 (如果 在 一 


读 的 静态 数据 上 使 用 MyISAM， 技 术 上 是 可 行 的 ， es 
应 用 。) *° 


MySQL 的 一 个 名 为 ScaleDB 的 存储 引擎 在 底层 提供 了 操作 共享 存储 的 API， 但 我 
们 还 没有 评估 过 ， 也 没有 见 过 任何 生产 环境 使 用 。 在 写作 本 书 时 它 还 是 beta 版 。 





共享 存储 本 身 也 有 风险 ， 如 果 MySQL 崩溃 等 故障 导致 数据 文件 损坏 ， 可 能 会 导致 备用 
服务 器 无 法 恢复 。 我 们 强烈 建议 在 使 用 共享 存储 策略 时 选择 InnoDB 存储 引擎 或 其 他 稳 
” 定 的 ACID 存储 引擎 。 一 次 崩溃 几乎 肯定 会 损坏 MyISAM R, 需要 花费 很 长 时 间 来 修复 ， 
并 且 会 丢失 数据 。 我 们 也 强烈 建议 使 用 日 志 型 文件 系统 。 我 们 见 过 比较 严重 的 情况 是 ， 
使 用 非 日 志 型 文件 系统 和 SAN (这 是 文件 系统 的 问题 ， 跟 SAN 无 关 ) 导致 数据 损坏 无 
法 恢复 。 


注 5: Percona Server 提供 了 一 个 新 特性 ， 能 够 把 buffer pool 保存 下 来 并 在 重启 后 还 原 ， 在 使 用 共享 存储 
时 能 够 很 好 地 工作 。 这 可 以 减少 几 个 小 时 其 至 好 几 天 的 预 热 时 间 。MySQL 5.6 也 有 相似 的 特性 。 

注 6: MySQL 5.6.8 之 后 InnoDB 也 增加 了 一 个 只 读 模 式 ， 可 以 只 读 的 方式 用 多 个 实例 访问 一 份 只 读数 据 
文件 。 一 一 译 者 注 
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磁盘 复制 技术 是 另外 一 个 获得 跟 SAN 类 似 效果 的 方法 。MySQL 中 最 普遍 使 用 的 磁盘 复 
制 技术 是 DRBD (http://www.drbd.org)， 并 结合 Linux-HA 项 目 中 的 工具 使 用 (后 面 会 
介绍 到 )。 


DRBD 是 一 个 以 Linux 内 核 模 块 方式 实现 的 块 级 别 同步 复制 技术 。 它 通过 网 卡 将 主 服 务 
器 的 每 个 块 复制 到 另外 一 个 服务 器 的 块 设备 上 (备用 设备 )， 并 在 主 设备 提交 块 之 前 记 
录 下 来 < 7。 由 于 在 备用 DRBD 设备 上 的 写 入 必须 要 在 主 设备 上 的 写 入 完成 之 前 ， 因 此 备 
用 设备 的 性 能 至 少 要 和 主 设备 一 样 ， 否 则 就 会 限制 主 设备 的 写 入 性 能 。 同 样 ， 如 果 正 在 
使 用 DRBD 磁盘 复制 技术 以 保证 在 主 设备 失效 时 有 一 个 可 随时 替换 的 备用 设备 ， 备 用 服 
务 器 的 硬件 应 该 跟 主 服务 器 的 相 匹配 。 带 电池 写 缓 存 的 RAID 控制 器 对 DRBD 而 言 几 乎 
是 必需 的 ， 因 为 在 没有 这 样 的 控制 器 时 性 能 可 能 会 很 差 。 


如 采 主 服务 器 失效 , 可 以 把 备用 设备 提升 为 主 设备 。 因 为 DRBD 是 在 磁盘 块 层 进行 复制 ， 
而 文件 系统 也 可 能 会 不 一 致 。 这 意味 着 最 好 是 使 用 日 志 型 文件 系统 来 做 快速 恢复 。 一 旦 
设备 恢复 完成 ，MySQL 还 需要 运行 自身 的 恢复 。 原 故障 服务 器 恢复 后 ， 会 与 新 的 主 设 


备 进行 同步 ， 并 假定 自身 角色 为 备用 设备 。 


从 如 何 实际 地 实现 故障 转移 的 角度 来 看 ，DRBD 和 SAN 很 相似 : 有 一 个 热 备 机 器 ， 开 
始 提供 服务 时 会 使 用 和 故障 机 器 相同 的 数据 。 最 大 的 不 同 是 ，DRBD 是 复制 存储 一 一 
不 是 共享 存储 一 一 所 以 当 使 用 DRBD 时 ， 获 得 的 是 一 份 复制 的 数据 ， 而 SAN 则 是 使 用 
与 故障 机 器 同一 物理 设备 上 的 相同 数据 副本 。 换 名 话说， 磁盘 复制 技术 的 数据 是 元 余 
的 ， 所 以 存储 和 数据 本 身 都 不 会 存在 单 点 失效 问题 。 这 两 种 情况 下 ， 当 启动 备用 机 器 时 ， 
MySQL 服务 器 的 缓存 都 是 空 的 。 相 比 之 下 ， 备 库 的 缓存 至 少 是 部 分 预 热 的 。 


DRBD 有 一 些 很 好 的 特性 和 功能 ， 可 以 防止 集群 软件 普遍 会 遇 到 的 一 些 问题 。 一 个 典型 
的 例子 是 “ 脑 裂 综合 征 ， 在 两 个 节点 同时 提升 自己 为 主 服 务 器 时 会 发 生 这 种 问题 。 可 


以 通过 配置 DRBD 来 防止 这 种 事件 发 生 。 但 是 DRBD 也 不 是 一 个 能 满足 所 有 需求 的 完 


美 解决 方案 。 我 们 来 看 看 它 有 哪些 缺点 : 


。 DRBD 的 故障 转移 无 法 做 到 秒 级 以 内 。 它 通常 至 少 需 要 几 秒 钟 时 间 来 将 备用 设备 提 ” 
升 成 主 设备 ， 这 还 不 包括 任何 必要 的 文件 系统 恢复 和 MySQL 恢复 。 

。 它 很 昂贵 ， 因 为 必须 在 主动 一 被 动 模式 下 运行 。 热 备 服务 器 的 复制 设备 因为 处 于 被 
动 模式 ， 无 法 用 于 其 他 任务 。 当 然 这 是 不 是 缺点 取决 于 看 问题 的 角度 。 如 果 你 希望 
获得 真正 的 高 可 用 性 并 且 在 发 生 故 障 时 不 能 容忍 服务 降级 ， 就 不 应 该 在 一 台 机 器 上 
运行 两 台 服 务 器 的 负载 量 ， 因 为 如 果 这 么 做 了 ， 当 其 中 一 台 发 生 故 障 时 ， 就 无 法 处 


注 7: 事实 上 可 以 调整 DRDB 的 同步 级 别 ， 将 其 设置 成 异步 等 待 远程 设备 接收 数据 ， 或 者 在 远程 设备 将 
数据 写 入 磁盘 前 一 直 阻 塞 住 。 同 样 ， 强 烈 建议 为 DRBD 专门 使 用 一 块 网 卡 。 
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理 这 些 负载 了 。 可 以 用 这 些 备用 服务 器 做 一 些 其 他 用 途 ， 例 如 用 作 备 库 ， 但 还 是 会 
有 一 些 资源 浪费 。 

。 对 于 MyISAM 表 实 际 上 用 处 不 大 ， 因 为 MyISAM 表 崩 省 后 需要 花费 很 长 时 间 来 检 
碍 和 修复 。 对 任何 期 望 获得 高 可 用 性 的 系统 而 言 ，MyISAM 都 不 是 一 个 好 选择 ; 请 
使 用 InnoDB 或 其 他 支持 快速 、 安 全 恢复 的 存储 引 警 来 代替 MyISAM. 

。 DRBD 无 法 代替 备份 。 如 果 磁 盘 由 于 蓄意 的 破坏 、 误 操作 、Bug 或 者 其 他 硬件 故障 
导致 数据 损坏 ，DRBD 将 无 济 于 事 。 此 时 复制 的 数据 只 是 被 损坏 数据 的 完美 副本 。 
你 需要 使 用 备份 (或 MySQL 延 时 复制 ) 来 避免 这 些 问 题 。 

e 对 写 操作 而 言 增 加 了 负担 。 具 体会 增加 多 少 负 担 呢 ? 通常 可 以 使 用 百分比 来 表示 ， 
但 这 并 不 是 一 个 好 的 度量 方法 。 你 需要 理解 写 入 时 增加 的 延迟 主要 由 网 络 往返 开销 
和 远程 服务 器 存储 导致 ， 特 别 是 对 于 小 的 写 入 而 言 延 迟 会 更 大 。 尽 管 增加 的 延迟 可 
能 也 就 0.3ms， 这 看 起 来 比 在 本 地 磁盘 上 1/0 的 4 ~ 10ms 的 延迟 要 小 很 多 ,但 却 是 
正常 的 带 有 写 缓存 的 RAID 控制 器 的 延迟 的 3 ~ 4 倍 。 使 用 DRBD 导致 服务 器 变 慢 
最 常见 的 原因 是 MySQL 使 用 InnoDB 并 采取 了 完全 持久 化 模式 **， 这 会 导致 许多 小 
的 写 入 和 fsync() 调用 ， 通 过 DRBD 同步 时 会 非常 慢 。 入 ? 


我 们 倾向 于 只 使 用 DRBD 复制 存放 二 进 制 日 志 的 设备 。 如 果 主 动 市 点 失效 ， 可 以 在 被 动 
节点 上 开启 一 个 日 志 服 务 器 ， 然 后 对 失效 主 库 的 所 有 备 库 应 用 这 些 二 进 制 日 志 。 接 下 来 
可 以 选择 其 中 一 个 备 库 提 升 为 主 库 ， 以 代替 失效 的 系统 。 


说 到 底 ， 共 享 存储 和 磁盘 复制 与 其 说 是 高 可 用 性 ( 低 宕 机 时 间 ) 解决 方案 ， 不 如 说 是 一 
种 保证 数据 安全 的 方法 。 只 要 拥有 数据 ， 就 可 以 从 故障 中 恢复 ， 并 且 比 无 法 恢复 的 情况 
的 MTTR 更 低 。( 即 使 是 很 长 的 恢复 时 间 也 比 不 能 恢复 要 快 。) 但 是 相 比 于 备用 服务 器 启 
动 并 一 直 运 行 的 架构 ， 大 多 数 共享 存储 或 磁盘 复制 架构 会 增加 MTTR。 有 两 种 启用 备用 
设备 并 运行 的 方法 : 我 们 在 第 10 章 讨论 的 标准 的 MySQL 复制， 以 及 接 下 来 会 讨论 的 同 
步 复 制 。 


12.4.2 MySQL 同步 复制 

当 使 用 同步 复制 时 ， 主 库 上 的 事务 只 有 在 至 少 一 个 备 库 上 提交 后 才能 认为 其 执行 完成 。 
这 实现 了 两 个 目标 : 当 服 务 器 崩溃 时 没有 提交 的 事务 会 丢失 ， 并 且 至 少 有 一 个 备 库 拥有 
实时 的 数据 副本 。 大 多 数 同步 复制 架构 运行 在 主动 - 主动 模式 。 这 意味 着 每 个 服务 器 在 
任何 时 候 都 是 故障 转移 的 候选 者 ， 这 使 得 通过 元 余 获 得 高 可 用 性 更 加 容易 。 


注 8: 这 里 的 意思 应 该 是 innodb flush log at trx commit=1 的 情况 。 一 一 译 者 注 

注 9: 另 一 方面 ， 大 的 序列 写 入 又 是 另外 一 种 情况 ， 由 DRBD 导致 的 增加 的 延迟 实际 上 消失 了 ， 但 吞吐 
量 的 限制 依然 存在 。 一 个 合适 的 RAID 阵列 能 够 提供 200 一 SOOMB/s 的 序列 写 入 吞吐 ， 大 大 超过 
Fk PS PT RE RAG Boke, 
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在 写作 本 书 时 ，MySQL 本 身 并 不 支持 同步 复制 *"， 但 有 两 个 基于 MySQL 的 集群 解决 
方案 支持 同步 复制 。 你 还 可 以 阅读 第 10 章 、 第 11 章 和 第 13 章 讨 论 的 其 他 产品 ， 例 如 
Continuent Tungsten 以 及 Clustrix， 这 些 都 相当 有 意思 。 


. MySQL Cluster 


MySQL 中 的 同步 复制 首先 出 现在 MySQL Cluster (NDB Cluster) 。 它 在 所 有 节点 
同步 的 主 - 主 复制 。 这 意味 着 可 以 在 任何 节点 上 写 和 人 这 些 世 点 拥有 等 同 的 读 写 能 

每 一 行 都 是 元 余 存 储 的 ， 这 样 即使 丢失 了 一 个 节点 ， 也 不 会 丢失 数据 ， Heelan 
提供 服务 。 尽 管 MySQL Cluster 还 不 是 适用 于 所 有 应 用 的 完美 解决 方案 ， 但 正如 我 们 在 
前 一 章 提 到 的 ， 在 最 近 的 版 本 中 它 做 了 非常 快速 的 改进 ， 现 在 已 经 拥有 大 量 的 新 特性 和 
功能 : 非 索引 数据 的 磁盘 存储 、 增 加 数据 节点 能 够 在 线 扩展 、 使 用 ndbinfo 表 来 管理 集 
群 、 配 置 和 管理 集群 的 脚本 、 多 线程 操作 、 下 推 (push-down) 的 关联 操作 (现在 称 为 
自 适应 查询 本 地 化 )、 能 够 处 理 BLOB 列 和 很 多 列 的 表 、 集 中 式 的 用 户 管理 ， 以 及 通过 
像 memcached 协议 一 样 的 NDB API 来 实现 NoSQL 访问 。 在 下 一 个 版 本 中 将 包含 最 终 一 
致 运行 模式 ,包括 为 跨 数据 中 心 的 主动 -主动 复制 提供 事务 冲突 检测 和 跨 WAN 解决 方案 。 
简 而 言 之 ，MySQL Cluster 是 一 项 引 人 注 目的 技术 。 


现在 至 少 有 两 个 为 简化 集群 部 署 和 管理 提供 附加 产品 的 供应 商 «Oracle 针对 MySQL 
Cluster 的 服务 支持 包含 了 MySQL Cluster Manager 工具 ; Severalnines 提供 了 Cluster 
Control 工具 (http://www.severalnines.com) , 该 工具 还 能 够 帮助 部 署 和 管理 复制 集群 。 


2. Percona XtraDB Cluster 


Percona XtraDB Cluster 是 一 个 相对 比较 新 的 技术 ， 基 于 已 有 的 XtraDB (InnoDB) 存储 
引擎 增加 了 同步 复制 和 集群 特性 ， 而 不 是 通过 一 个 新 的 存储 引擎 或 外 部 服务 器 来 实现 。 
CHEF Galera (支持 在 集群 中 跨 节点 复制 写 操作 ) 实现 的 ="， 这 是 一 个 在 集群 中 不 同 
PARAIRE., IR MySQL Cluster 类 似 ，Percona XtraDB Cluster 提供 同步 多 主 库 
复制 *“， 支 持 真正 的 任意 节点 写 和 能力， 能 够 在 节点 失效 时 保证 数据 零 丢 失 (持久 性 ， 
ACID 中 的 D) ， 另 外 还 提供 高 可 用 性 ， 在 整个 集群 没有 失效 的 情况 下 ， 就 算 单个 节点 失 
效 也 设 有 关系 。 


Galera 作为 底层 技术 ， 使 用 一 种 被 称 为 写 人 集合 (write-set) 复制 的 技术 。 写 入 集合 实 
际 上 被 作为 基于 行 的 二 进 制 日 志 事 件 进 行 编码 ， 目 的 是 在 集群 中 的 节点 间 传 输 并 进行 更 


注 10 : MySQL 5.5 支持 半 同 步 复制 ， 参见 第 10 章 。 

注 11 : Galera 技术 由 Codership Oy (http:/Wwww.codership.com) 开发 ， 可 以 作为 一 个 补丁 在 标准 的 MySQL 
和 InnoDB 中 使 用 。Percona XtraDB Cluster 除了 其 他 特性 和 功能 外 ， 还 包含 这 组 补丁 的 修改 版 本 . 
Percona XtraDB Cluster 是 一 个 可 以 直接 使 用 的 基于 Galera 的 解决 方案 。 

注 12 : 你 可 以 通过 配置 主 备 只 写 入 其 中 一 个 节点 来 实现 ， 但 在 集群 配置 中 ， 对 于 这 种 模式 的 操作 没有 什 
么 不 同 。 
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新 ， 但 是 这 不 要 求 二 进 制 日 志 是 打开 的 。 


Percona XtraDB Cluster 的 速度 很 快 。 跨 节点 复制 实际 上 比 没 有 集群 还 要 快 ， 因 为 在 完全 
持久 性 模式 下 ， 写 入 远程 RAM 比 写 入 本 地 磁盘 要 快 。 如 果 你 愿意 ， 可 以 选择 通过 降低 
每 个 证 点 的 持久 性 来 获得 更 好 的 性 能 ， 并 且 可 以 依赖 于 多 个 节点 上 的 数据 副本 来 获得 持 
Att. NDB 也 是 基于 同样 的 原理 实现 的 。 集 群 在 整体 上 的 持久 性 并 没有 降低 ; 仅仅 是 降 
低 了 本 地 市 点 的 持久 性 。 除 此 之 外 ， 还 支持 行 级 别 的 并 发 (多 线程 ) 复制 ， 这 样 就 可 以 
利用 多 个 CPU 核心 来 执行 写 入 集合 。 这 些 特 性 结合 起 来 使 得 Percona XtraDB Cluster JE 
常 适合 云 计算 环境 ， 因 为 云 计 算 环 境 中 的 CPU 和 磁盘 通常 比较 慢 。 


在 集群 中 通过 设置 auto increment offset 和 auto increment increment 来 实现 自 增 键 ， 
以 使 节点 间 不 会 生成 冲突 的 主键 值 。 锁 机 制 和 标准 InnoDB 完全 相同 ， 使 用 的 是 乐观 并 
发 控制 。 当 事务 提交 时 ， 所 有 的 更 新 是 序列 化 的 ， 并 在 节点 间 传 输 ， 同 时 还 有 一 个 检测 
过 程 ， 以 保证 一 旦 发 生 更 新 冲突 ， 其 中 一 些 更 新 操作 需要 丢弃 。 这 样 如 果 许 多 节点 同时 
修改 同样 的 数据 ， 可 能 产生 大 量 的 死 锁 和 回 深 。 


Percona XtraDB Cluster 只 要 集群 内 在 线 的 节点 数 不 少 于 “法 定 人 数 (quorum)” 就 能 保 
证 服务 的 高 可 用 性 。 如 果 发 现 某 个 节点 不 属于 “法 定 人 数 ” 中 的 一 员 ， 就 会 从 集群 中 将 
其 踢 出 。 被 踢 出 的 节点 在 再 次 加 入 集群 前 必须 重新 同步 。 因 此 集群 也 无 法 处 理 “ 脑 裂 综 
合 征 ”; 如 果 出 现 脑 裂 则 集群 会 停止 服务 。 在 一 个 只 有 两 个 节点 的 集群 中 ， 如 果 其 中 一 
个 节点 失效 ， 剩 下 的 一 个 节点 达 不 到 “法 定 人 数 "， 集 群 将 停止 服务 ， 所 以 实际 上 最 少 
需要 三 个 节点 才能 实现 高 可 用 的 集群 。 


Percona XtraDB Cluster 有 许多 优点 : 


° 提供 了 基于 InnoDB 的 透明 集群 ， 所 以 无 须 转换 到 另外 的 技术 ， 例 如 NDB 这 样 完全 
不 同 的 技术 需要 很 多 学 习 成 本 和 管理 。 

。 提供 了 真正 的 高 可 用 性 ， 所 有 节点 等 效 ， 并 在 任何 时 候 提供 读 写 服务 。 相 比较 而 言 ， 
MySQL 内 建 的 异步 复制 和 半 同 步 复制 必须 要 有 一 个 主 库 ， 并 且 不 能 保证 数据 被 复制 
到 备 库 ， 也 无 法 保证 备 库 数据 是 最 新 的 并 能 够 随时 提升 为 主 库 。 


。 节点 失效 时 保证 数据 不 丢失 。 实 际 上 ， 由 于 所 有 的 节点 都 拥有 全 部 数据 ， 因 此 可 以 


丢失 任意 一 个 节点 而 不 会 丢失 数据 (即使 集群 出 现 脑 裂 并 停止 工作 )。 这 和 NDB 不 同 ， 
NDB 通过 布点 组 进行 分 区 , 当 在 一 个 市 点 组 中 的 所 有 服务 絮 失 效 时 就 可 能 丢失 数据 。 
。 备 库 不 会 延迟 ， 因 为 在 事务 提交 前 ， 写 和 集合 已 经 在 集群 的 所 有 市 点 上 传播 并 被 确 
认 了 。 
。 因为 是 使 用 基于 行 的 日 志 事 件 在 备 库 上 进行 更 新 ， 所 以 执行 写 入 集合 比 直 接 执 行 更 
新 的 开销 要 小 很 多 ,就 和 使 用 基于 行 的 复制 差不多 。 当 结合 多 线程 应 用 的 写 和 人 集合 时 ， 
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可 以 使 其 比 MySQL 本 身 的 复制 更 具备 可 扩展 性 。 


当然 我 们 也 需要 提 及 Percona XtraDB Cluster 的 一 些 缺 点 : 


它 很 新 ， 因 此 还 没有 足够 的 经 验 来 证 明 其 优点 和 缺点 ， 也 缺乏 合适 的 使 用 案例 。 
整个 集群 的 写 人 速度 由 最 差 的 节点 决定 。 因 此 所 有 的 节点 最 好 拥有 相同 的 硬件 配置 ， 
如 果 一 个 节点 慢 下 来 (例如 ，RAID 卡 做 了 一 次 battery-learn 循环 ) ， 所 有 的 节点 都 
会 慢 下 来 。 如 果 一 个 节点 接收 写 入 操作 变 慢 的 可 能 性 为 P， 那 么 有 3 个 市 点 的 集群 
变 慢 的 可 能 性 为 3P。 

没有 NDB 那样 节省 空间 ， 因 为 每 个 节点 都 需要 保存 全 部 数据 ， 而 不 是 仅仅 一 部 分 。 


但 另 一 方面 ， 它 基于 Percona XtraDB (InnoDB 的 增强 版 本 ) ， 也 就 没有 NDB 关于 


磁盘 数据 限制 的 担忧 。 

当前 不 支持 一 些 在 异步 复制 中 可 以 做 的 操作 ， 例 如 在 备 库 上 离线 修改 schema， 然 后 
将 其 提升 为 主 库 ， 然 后 在 其 他 闻 点 上 重复 离线 修改 操作 。 当 前 可 替代 的 选择 是 使 用 
诸如 Percona Toolkit 中 的 在 线 schema 修改 工具 。 不 过 滚动 式 schema 升级 (rolling 
schema upgrade) 在 写作 本 书 时 也 即将 发 布 。 

当 疝 集群 中 增加 一 个 新 节点 时 ， 需 要 复制 所 有 的 数据 ， 还 需要 跟 上 不 断 进行 的 写 和 人 
操作 ， 所 以 一 个 拥有 大 量 写 人 的 大 型 集群 很 难 进 行 扩容 。 这 实际 上 限制 了 集群 的 数 
据 大 小 。 我 们 无 法 确定 具体 的 数据 。 但 悲观 地 估计 可 能 低 至 100GB 或 更 小 ， 也 可 能 
会 大 得 多 。 这 一 点 需要 时 间 和 经 验 来 证 明 。 

复制 协议 在 写 人 时 对 网 络 波动 比较 敏感 ， 这 可 能 导致 节点 停止 并 从 集群 中 踢 出 。 所 
以 我 们 推荐 使 用 高 性 能 网 络 ， 另 外 还 需要 很 好 的 元 余 。 如 果 没 有 可 靠 的 网 络 ， 可 能 
会 导致 需要 频 索 地 将 节点 加 入 到 集群 中 。 这 需要 重新 同步 数据 。 在 写本 书 时 ， 有 一 
个 几乎 接近 可 用 的 特性 ， 即 通过 增 量 状态 传输 来 避免 完全 复制 数据 集 ， 因 此 未 来 这 
并 不 是 一 个 问题 。 还 可 以 配置 Galera 以 容忍 更 大 的 网 络 延 迟 (以 延迟 故障 检测 为 代 
价 ) ， 另 外 更 加 可 靠 的 算法 也 计划 在 未 来 的 版 本 中 实现 。 

如 有 果 没 有 仔细 关注 ， 集 群 可 能 会 增长 得 太 大 ， 以 至 于 无 法 重启 失效 节点 ， 就 像 在 一 
个 合理 的 时 间 范 围 内 ， 如 果 在 日 常 工作 中 没有 定期 做 恢复 演练 ， 备 份 也 会 变 得 太 过 
庞大 而 无 法 用 于 恢复 。 我 们 需要 更 多 的 实践 经 验 来 了 解 它 事实 上 是 如 何 工作 的 。 

由 于 在 事务 提交 时 需要 进行 跨 节点 通信 ， 写 入 会 更 慢 ， 随 着 集群 中 增加 的 节点 越 来 
越 多 ， 和 死 锁 和 回 徐 也 会 更 加 频 楷 。( 参 阅 前 一 章 了 解 为 什么 会 发 生 这 种 情况 。) 


Percona XtraDB Cluster 和 Galera 都 处 于 其 生命 周期 的 早期 ， 正 在 被 快速 地 修改 和 改进 。 
在 写作 本 书 时 ， 正 在 进行 或 即将 进行 的 改进 包括 群体 行为 、 安 全 性 、 同 步 性 、 内 存 管理 、 
状态 转移 等 。 未 来 还 可 以 为 离线 节点 执行 诸如 滚动 式 schema 变更 的 操作 。 
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12.4.3 基于 复制 的 元 余 

复制 管理 器 是 使 用 标准 MySQL 复制 来 创建 元 余 的 工具 ““"。 尽 管 可 以 通过 复制 来 改善 可 
用 性 ， 但 也 有 一 些 “ 玻 璃 天 花 板 ”会 阻止 MySQL 当前 版 本 的 异步 复制 和 半 同 步 复制 获 
得 和 真正 的 同步 复制 相同 的 结果 。 复 制 无 法 保证 实时 的 故障 转移 和 数据 零 丢 失 ， 也 无 法 
将 所 有 市 乓 等 同 对待 。 


复制 管理 器 通常 监控 和 管理 三 件 事 ;应 用 和 MySQL 间 的 通信 、MySQL 服务 器 的 健康 度 ， 
以 及 MySQL 服务 器 间 的 复制 关系 。 它 们 既 可 以 修改 负载 均衡 的 配置 ， 也 可 以 在 必要 的 
时 候 转移 虚拟 IP 地 址 以 使 应 用 连接 到 合适 的 服务 器 上 ， 还 能 够 在 一 个 伪 集 群 中 操纵 复制 
以 选择 一 个 服务 器 作为 写 和 节点。 大 体 上 操作 并 不 复杂 : 只 需要 确定 写 人 不 会 发 送 到 一 
个 还 没有 准备 好 提供 写 服务 的 服务 器 上 ， 并 保证 当 需 要 提升 一 台 备 库 为 主 库 时 记录 下 正 
确 的 复制 坐标 。 


这 听 起 来 在 理论 上 是 可 行 的 ， 但 我 们 的 经 验 表明 实际 上 并 不 总 是 能 有 效 工 作 。 事 实 上 这 
非常 糟糕 ， 有 些 时 候 最 好 有 一 些 轻 量 级 的 工具 集 来 帮助 从 常见 的 故障 中 恢复 并 以 很 少 的 
开销 获得 较 高 的 可 用 性 。 不 幸 的 是 ， 在 写作 本 书 时 我 们 还 没有 听 说 任何 一 个 好 的 工具 集 
可 以 可 靠 地 完成 这 一 点 。 稍 后 我 们 会 介绍 两 个 复制 管理 器 站 4， 其 中 一 个 很 新 ， 而 另外 一 
个 则 有 很 多 问题 。 


我 们 发 现 很 多 人 试图 去 写 自 己 的 复制 管理 器 。 他 们 常常 会 陷入 很 多 人 已 经 遭遇 过 的 陷阱 。 
自己 去 写 一 个 复制 管理 器 并 不 是 好 主意 。 异 步 组 件 有 大 量 的 故障 形式 ， 很 多 你 从 未 亲身 
经 历 过 ， 其 中 一 些 其 至 无 法 理解 ， 并 且 程 序 也 无 法 适当 处 理 ， 因 此 从 这 些 异步 组 件 中 得 
到 正确 的 行为 相当 困难 ,并 且 可 能 遭遇 数据 丢失 的 危险 。 事实 上 ,机 器 刚 开始 出 现 问 题 时 ， 
由 一 个 经 验 丰 富 的 人 来 解决 是 很 快 的 ， 但 如 果 其 他 人 做 了 一 些 错误 的 修复 操作 则 可 能 导 
致 问题 更 严重 。 | 


我 们 要 提 到 的 第 一 个 复制 管理 器 是 MMM (http://mysqI-mmm.org)， 本 书 的 作者 对 于 该 
工具 集 是 否 适用 于 生产 环境 部 署 的 意见 并 不 一 致 ( 尽 管 该 工具 的 原作 者 也 承认 它 并 不 可 
靠 )。 我 们 中 有 些 人 认为 它 在 一 些 人 工 一 故障 转移 模式 下 的 场景 中 比较 有 用 ， 而 有 些 人 
其 至 从 不 使 用 这 个 工具 。 我 们 的 许多 客户 在 自动 一 故障 转移 模式 下 使 用 该 工具 时 确实 过 
到 了 许多 严重 的 问题 。 它 会 导致 健康 的 服务 器 离线 ， 也 可 能 将 写 入 发 送 到 错误 的 地 点 ， 
并 将 备 库 移动 到 错误 的 坐标 。 有 时 混乱 就 接 中 而 至 。 

另外 一 个 比较 新 一 点 的 工具 是 Yoshinori Matsunobu 的 MHA 工具 集 (hitp://code. google. 
com/p/mysql-master-ha/). "6 #1 MMM 一 样 是 一 组 脚本 ， 使 用 相同 的 通用 技术 来 建 
213: 在 本 小 节 我 们 会 很 小 心 ， 以 避免 产生 混 消 。 宛 余 并 不 等 同 于 高 可 用 性 。 


14: 我 们 同样 在 开发 基于 Pacemaker 和 Linux-HA 栈 的 解决 方案 ， 但 并 不 准备 在 本 书 中 提 及 。 这 个 脚注 
WEDA, 10 人 a 
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立 一 个 伪 集 群 ， 但 它 不 是 一 个 完全 的 替换 者 ; 它 不 会 去 做 太 多 的 事情 ， 并 且 依 赖 于 
Pacemaker 来 转移 虚拟 IP 地 址 。 一 个 主要 的 不 同 是 ，MHA 有 一 个 很 好 的 测试 集 ， 可 以 
防止 一 些 MMM 遇 到 过 的 问题 。 除 此 之 外 ， 我 们 对 该 工具 集 还 设 有 更 多 的 认识 ， 我 们 只 
和 Yoshinori 讨论 过 ， 但 还 没有 真正 使 用 过 。 


基于 复制 的 元 余 最 终 来 说 好 坏 参 半 。 只 有 在 可 用 性 的 重要 性 远 比 一 致 性 或 数据 零 丢 失 保 
证 更 重要 时 才 推 荐 使 用 。 例 如 ， 一 些 人 并 不 会 真 的 从 他 们 的 网 站 功能 中 获 利 ， 而 是 从 它 
的 可 用 性 中 赚钱 。 谁 会 在 乎 是 否 出 现 了 故障 导致 一 张 照片 丢失 了 几 条 评论 或 其 他 什么 东 
西 呢 ? 只 要 广告 收益 继续 滚滚 而 来 ， 可 能 并 不 值得 花 更 多 成 本 去 实现 真正 的 高 可 用 性 。 
但 还 是 可 以 通过 复制 来 建立 “ 尽 可 能 的 ”高 可 用 性 ， 当 遇 到 一 些 很 难处 理 的 严重 宕 机 时 


“可 能 会 有 所 帮助 。 这 是 一 个 大 赌注 ， 并 且 可 能 对 大 多 数 人 而 言 太 过 于 冒险 ， 除 非 征 那些 


老成 (或 者 专业 ) WAP. 


问题 是 许多 用 户 不 知道 如 何 去 证 明 自 己 有 资格 并 评估 复制 “ 轮 盘 赌 ” 是 否 适合 他 们 。 这 
有 两 个 方面 的 原因 。 第 一 ,他 们 并 没有 看 到 “玻璃 天 人 花 板 ,错误 地 认为 一 组 虚拟 IP 地 址 、 
复制 以 及 管理 脚本 能 够 实现 真正 的 高 可 用 性 。 第 二 ， 他 们 低估 了 技术 的 复杂 度 ， 因 此 也 
低估 了 严重 故障 发 生 后 从 中 恢复 的 难度 。 一 些 人 认为 他 们 能 够 使 用 基于 复制 的 元 余 技 术 ， 
但 随后 他 们 可 能 会 更 希望 选择 一 个 有 更 强 保 障 的 简单 系统 。 


其 他 一 些 类 型 的 复制 ， 例 如 DRBD 或 者 SAN， 也 有 它们 的 缺点 一 一 请 不 要 认为 我 们 将 
这 些 技术 说 得 无 所 不 能 而 把 MySQL 自身 的 复制 贬 得 一 团 糟 ， 那 不 是 我 们 的 本 意 。 你 可 
以 为 DRBD 写 出 低 质 量 的 故障 转移 脚本 ， 这 很 简单 ， 就 像 为 MySQL 复制 编写 脚本 一 样 。 
主要 的 区 别 是 MySQL 复制 非常 复杂 ， 有 很 多 非常 细小 的 差别 ， 并 且 不 会 阻止 你 干 坏事 。 


12.5 故障 转移 和 故障 恢复 


元 余 是 很 好 的 技术 ， 但 实际 上 只 有 在 遇 到 故障 需要 恢复 时 才 会 用 到 。( 见 鬼 ， 这 可 以 用 备 
份 来 实现 ) 。 宛 余 一 点 儿 也 不 会 增加 可 用 性 或 减少 宕 机 。 在 故障 转移 的 过 程 中 ， 高 可 用 性 
是 建立 在 元 余 的 基础 上 。 当 有 一 个 组 件 失效 ， 但 存在 宛 余 时 ， 可 以 停止 使 用 发 生 故 障 的 
组 件 ， 而 使 用 宛 余 备件 。 宛 余 和 故障 转移 结合 可 以 帮助 更 快 地 恢复 ， 如 你 所 知 ，MTTR 
的 减少 将 降低 宕 机 时 间 并 改善 可 用 性 。 


在 继续 这 个 话题 之 前 ， 我 们 先 来 定义 一 些 术 语 。 我 们 统一 使 用 “故障 转移 (failover)”, 
有 些 人 使 用 “ 回 退 ”(fallback) 表达 同一 意思 。 有 时 候 也 有 人 说 “切换 (switchover)”, 
以 表明 一 次 计划 中 的 切换 而 不 是 故障 后 的 应 对 措施 。 我 们 也 会 使 用 “故障 恢复 ”来 表示 
故障 转移 的 反面 。 如 果 系 统 拥有 故障 恢复 能 力 ， 故 障 转 移 就 是 一 个 双向 过 程 : SARS a 
A 失效 ， 服 务 器 B 代替 它 ， 在 修复 服务 器 A 后 可 以 再 替换 回来 。 
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故障 转移 比 仅仅 从 故障 中 恢复 更 好 。 也 可 以 针对 一 些 情况 制订 故障 转移 计划 ， 例 如 升级 、 
schema 变更 、 应 用 修改 ， 或 者 定期 维护 ， 当 发 生 故 障 时 可 以 根据 计划 进行 故障 转移 来 减 
少 宕 机 时 间 (改善 可 用 性 )。 


你 需要 确定 故障 转移 到 底 需 要 多 快 ， 也 要 知道 在 一 次 故障 转移 后 替换 一 个 失效 组 件 应 该 
多 快 。 在 你 恢复 系统 耗 尽 的 备件 容量 之 前 ， 会 出 现 宛 余 不 足 ， 并 面临 额外 风险 。 因 此 ， 

拥有 一 个 备件 并 不 能 消除 即时 替换 失效 组 件 的 需求 。 构 建 一 个 新 的 备用 服务 器 ， 安 装 操 

(ERR, 并 复制 数据 的 最 新 副本 ， 可 以 多 快 呢 ? 有 足够 的 备用 机 器 吗 ? 你 可 能 需要 不 目 
一 台 以 上 。 


E E E A E E E E 
多 方面 很 相似 ， 它 们 之 间 的 分 界线 比较 模糊 。 总 的 来 说 ， 我 们 认为 一 个 完全 的 故障 转移 
解决 方案 至 少 能 够 监控 并 自动 替换 组 件 。 它 对 应 用 应 该 是 透明 的 。 负 载 均 衡 不 需要 提供 
这 些 功 能 


在 UNIX 领域 ， 故 障 转 移 常常 使 用 High Availability Linux MA (http:/linux-ha.org) 提 
供 的 工具 来 完成 ， 该 项 目 可 在 许多 类 UNIX 系统 上 运行 ， 而 不 仅仅 是 Linux。Linux-HA 
栈 在 最 近 几 年 明显 多 了 很 多 新 特性 。 现 在 大 多 数 人 认为 Pacemaker 是 栈 中 的 一 个 主要 组 
件 。Pacemaker 替代 了 老 的 心跳 工具 。 还 有 其 他 一 些 工具 实现 了 JIP 托管 和 负载 均衡 功能 。 
可 以 将 它们 跟 DRBD 和 /或 者 LVS 结合 起 来 使 用 。 | 


故障 转移 最 重要 的 部 分 就 是 故障 恢复 。 如 果 服 务 器 间 不 能 自如 切换 ， 故 障 转 移 就 是 一 个 
死胡同 ， 只 能 是 延缓 宕 机 时 间 而 已 。 这 也 是 我 们 倾向 于 对 称 复制 布局 ， 例 如 双 主 配置 ， 
而 不 会 选择 使 用 三 台 或 更 多 的 联合 主 库 (co-master) 来 进行 环形 复制 的 原因 。 如 果 配 置 
是 对 等 的 ， 故 障 转移 和 故障 恢复 就 是 在 相反 方向 上 的 相同 操作 。( 值 得 一 提 的 是 DRBD 
具有 内 建 的 故障 恢复 功能 。) 


在 一 些 应 用 中 ， 故 障 转移 和 故障 恢复 需要 尽量 快速 并 具备 原子 性 。 即 便 这 不 是 决定 性 的 ， 
不 依靠 那些 不 受 你 控制 的 东西 也 依然 是 个 好 主意 ,例如 DNS 变更 或 者 应 用 程序 配置 文件 。 
一 些 问题 直到 系统 变 得 更 加 庞大 时 才 会 显现 出 来 ， 例 如 当 应 用 程序 强制 重启 以 及 原子 性 
需求 出 现时 。 


由 于 负载 均衡 和 故障 转移 两 者 联系 较 紧 密 ， 有 些 硬 件 和 软件 是 同时 为 这 两 个 目的 设计 的 ， 
因此 我 们 建议 所 选择 的 任何 负载 均衡 技术 应 该 都 提供 故障 转移 功能 。 这 也 是 我 们 建议 避 
免 使 用 DNS 和 修改 代码 来 做 负载 均衡 的 真实 原因 。 如 果 为 负载 均衡 采用 了 这 些 策 略 ， 就 
需要 做 一 些 额 外 的 工作 : 当 需 要 高 可 用 性 时 ， 不 得 不 重 写 受 影响 的 代码 。 


以 下 小 市 讨论 了 一 些 比 较 普 遍 的 故障 转移 技术 。 可 以 手动 执行 或 使 用 工具 来 实现 
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12.5.1 提升 备 库 或 切换 角色 
提升 一 台 备 库 为 主 库 ， 或 者 在 一 个 主 一 主 复制 结构 中 调换 主动 和 被 动 角色 ， 这 些 都 是 许 


多 MySQL 故障 转移 策略 很 重要 的 一 部 分 。 具 体 细 节 参 见 第 10 章 。 正 如 本 章 之 前 提 到 的 ， 





我 们 不 能 认定 自动 化 工具 总 能 在 所 有 的 情况 下 做 正确 的 事情 
担保 没有 这 样 的 工具 。 


你 不 应 该 假定 在 发 生 故 障 时 能 够 立刻 切换 到 被 动 备 库 ， 这 要 看 具体 的 工作 负载 。 备 库 会 
重 放 主 库 的 写 入 ， 但 如 果 不 用 来 提供 读 操 作 ， 就 无 法 进行 预 热 来 为 生产 环境 负载 提供 服 
务 。 如 果 和 希望 有 一 个 随时 能 承担 读 负载 的 备 库 ， 就 要 不 断 地 “训练 ” 它 ， 既 可 以 将 其 用 
于 分 担 工 作 负 载 ， 也 可 以 将 生产 环境 的 读 查询 镜像 到 备 库 上 。 我 们 有 时 候 通 过 监听 TCP 
ite, BROPHY SELECT 查询 ， 然 后 在 备 库 上 重 放 来 实现 这 个 目的 。Percona Toolkit 
中 有 一 些 工 具 可 以 做 到 这 一 点 。 


或 者 至 少 以 我 们 的 名 车 


12.5.2 虚拟 IP 地 址 或 P 接管 

可 以 为 需要 提供 特定 服务 的 MySQL 实例 指定 一 个 逻辑 IP 地 址 。 当 MySQL 实例 失效 时 ， 
可 以 将 IP 地 址 转移 到 男 一 台 MySQL 服务 器 上 。 这 和 我 们 在 前 一 章 提 到 的 思想 本 质 上 是 
相同 的 ， 唯 一 的 不 同 是 现在 是 用 于 故障 转移 ， 而 不 是 负载 均衡 。 


这 种 方法 的 好 处 是 对 应 用 透明 。 它 会 中 断 已 有 的 连接 ， 但 不 要 求 修改 配置 。 有 时 候 还 可 
以 原子 地 转移 IP 地 址 ， 保 证 所 有 的 应 用 在 同一 时 间 看 到 这 一 变更 。 当 服务 器 在 可 用 和 不 
可 用 状态 间 “ 摇 摆 ” 时 ， 这 一 点 尤其 重要 。 


以 下 是 它 的 一 些 不 足 之 处 : 


。 需要 把 所 有 的 IP 地 址 定义 在 同一 网 段 ， 或 者 使 用 网 络 桥 接 。 

e 改变 IP 地址 需要 系统 root 权限 。 

。 有 时 候 还 需要 更 新 ARP 缓存 。 有 些 网 络 设备 可 能 会 把 ARP 信息 保存 太 久 ， 以 致 无 
法 即时 将 一 个 IP 地 址 切换 到 另 一 个 MAC 地 址 上 。 我 们 看 到 过 很 多 网 络 设 备 或 其 他 
组 件 不 配合 切换 的 例子 ， 结 果 系 统 的 许多 部 分 可 能 无 法 确定 IP 地 址 到 底 在 哪里 。 

。 需要 确定 网 络 硬件 支持 快速 IP 接管 。 有 些 硬件 需要 克隆 MAC 地 址 后 才能 工作 。 

© 有些 服 务 器 即使 完全 形 失 功能 也 会 保持 持 有 IP 地址 ， 所 以 可 能 需要 从 物理 上 关闭 或 
断 开 网 络 连接 。 这 就 是 为 人 所 熟知 的 “ 击 中 其 他 布点 的 头 部 ”(shoot the other node 
in the head， 简 称 STONITH)。 它 还 有 一 个 更 加 微妙 并 且 比 较 官 方 的 名 字 : 击剑 
(fencing). 


浮动 IP 地 址 和 IP 接管 能 够 很 好 地 应 付 彼此 临近 (也 就 是 在 同一 子 网 内 ) 的 机 器 之 间 的 
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故障 转移 。 但 是 最 后 需要 提醒 的 是 ， 这 种 策略 并 不 总 是 万 无 一 失 ， 还 取决 于 网 络 硬件 等 
因素 。 


等 待 更 新 扩散 


经 常 有 这 种 情况 ， 在 某 一 层 定 义 了 一 个 宛 余 后 ， 需 要 等 待 低层 执 行 一 些 改变 。 在 本 


章 前 面 的 篇 幅 里 ， 我 们 指出 通过 DNS i te 的 解决 方案 ， 因 为 
DNS 的 更 新 扩散 速度 很 慢 ， 改 变 IP 地 址 可 给 予 你 更 多 的 控制 ， 但 在 一 个 LAN 中 
的 IP 地 址 同样 依赖 Ce 





12.5.3 中 间 件 解决 方案 


可 以 使 用 代理 、 端 口 转发 、 网 络 地 址 转换 (NAT) 或 者 硬件 负载 均衡 来 实现 故障 转移 和 
故障 恢复 。 这 些 都 是 很 好 的 解决 方案 ， 不 像 其 他 方法 可 能 会 引入 一 些 不 确定 性 (所 有 系 
统 组 件 认 同 哪 一 个 是 主 库 吗 ? 它 能 够 及 时 并 原子 地 更 改 吗 ? ) ， 它 们 是 控制 应 用 和 服务 
器 间 连 接 的 中 枢 。 但 是 ， 它 们 自身 也 引入 了 单 点 失效 ， 需 要 准备 元 余 来 避免 这 个 问题 。 


使 用 这 样 的 解决 方案 ， 你 可 以 将 一 个 远程 数据 中 心 设置 成 看 起 来 好 像 和 应 用 在 同一 个 网 

络 里 。 这 样 就 可 以 使 用 诸如 浮动 IP 地 址 这 样 的 技术 让 应 用 和 一 个 完全 不 同 的 数据 中 心 开 

始 通信 。 你 可 以 配置 每 个 数据 中 心 的 每 台 应 用 服务 器 ， 通 过 它 自己 的 中 间 件 连接 ， 将 流 
量 路 由 到 活跃 数据 中 心 的 机 器 上 。 图 12-1 描述 了 这 种 配置 。 


f MySQL 服务 器 % i ”MySQL 服务 器 
; (主动) 一 一 (被 动 ) 





图 12-1: 使 用 中 间 件 来 在 各 数据 中 心间 路 由 MySQL 连 接 
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如 果 活 跃 数据 中 心安 装 的 MySQL WRA T, PE PEAT APS h eB Hb — TP h 
心 的 服务 器 池 中 ， 应 用 无 须知 道 这 个 变化 。 


这 种 配置 方法 的 主要 缺点 是 在 一 个 数据 中 心 的 Apache 服务 器 和 另外 一 个 数据 中 心 的 
MySQL 服务 器 之 间 的 延迟 比较 大 。 为 了 缓和 这 个 问题 ， 可 以 把 Web 服务 器 设置 为 重 
定向 模式 。 这 样 通信 都 会 被 重 定向 到 放置 活跃 MySQL 服务 器 的 数据 中 心 。 还 可 以 使 用 
HTTP 代理 来 实现 这 一 目标 。 


图 12-1 显示 了 如 何 使 用 代理 来 连接 MySQL 服务 器 ， 也 可 以 将 这 个 方法 和 许多 别 的 中 间 
件 架 构 结 合 在 一 起 ， 例 如 LVS 和 硬件 负载 均衡 器 。 


12.5.4 在 应 用 中 处 理 故 障 转 移 


有 时 候 让 应 用 来 处 理 故 障 转 移 会 更 简单 或 者 更 加 灵活 。 例 如 ， 如 果 应 用 遇 到 一 个 错误 ， 
这 个 错误 外 部 观察 者 正常 情况 下 是 无 法 察觉 的 ， 例 如 关于 数据 库 损坏 的 错误 日 志 信 息 ， 
那么 应 用 可 以 目 己 来 处 理 故 障 转移 过 程 。 


虽然 把 故障 转移 处 理 过 程 整合 到 应 用 中 看 起 来 比较 吸引 人 ， 但 可 能 设 有 想象 中 那么 有 效 。 
大 多 数 应 用 有 许多 组 件 ， 例 如 cron 任务 、 配 置 文件 ， 以 及 用 不 同 语言 编写 的 脚本 。 将 故 
障 转移 整合 到 应 用 中 可 能 导致 应 用 变 得 太 过 和 漂 拙 ， 尤 其 是 当 应 用 增 大 并 变 得 更 加 复杂 时 。 


但 是 将 监控 构建 到 应 用 中 是 一 个 好 主意 ， 当 需要 时 ， 能 够 立刻 开始 故障 转移 过 程 。 应 用 
应 该 也 能 够 管理 用 户 体验 ， 例 如 提供 降级 功能 ， 并 显示 给 用 户 合适 的 信息 。 


12.6 BA 


可 以 通过 减少 宕 机 来 获得 高 可 用 性 ， 这 需要 从 以 下 两 个 方面 来 思考 : 增加 两 次 故障 之 间 
的 正常 运行 时 间 (MTBF) ， 或 者 减少 从 故障 中 恢复 的 时 间 (MTTR)。 


要 增加 两 次 故障 之 间 的 正常 运行 时 间 ， 就 要 尝试 去 防止 故障 发 生 。 翡 剧 的 是 ， 在 预防 故 
障 发 生 时 ， 它 仍然 会 觉得 你 做 的 不 够 多 ， 所 以 预防 故障 的 努力 经 常会 被 忽视 掉 。 我 们 已 
经 着 重 提 到 了 如 何在 MySQL 系统 中 预防 宕 机 ; 具体 的 细 市 可 以 参阅 我 们 的 白皮书 ， 从 
http://www.percona.com 上 可 以 获得 。 试 着 从 宪 机 中 获得 经 验 教 训 ， 但 也 要 谨防 在 故障 根 
源 分 析 和 事后 检验 时 集中 在 某 一 点 上 而 忽略 其 他 因素 。 


缩短 恢复 时 间 可 能 更 复杂 并 且 代 价 很 高 。 从 简单 和 容易 的 方面 来 说 ， 可 以 通过 监控 来 更 
快 地 发 现 问 题 ， 并 记录 大 量 的 度量 值 以 帮助 诊断 问题 。 作 为 回报 ， 有 了 时候 可 以 在 发 生 宕 
机 前 就 发 现 问题 。 监 控 并 有 选择 地 报警 以 避免 无 用 的 信息 ， 但 也 要 及 时 记录 状态 和 性 能 
度量 值 。 
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另外 一 个 减少 恢复 时 间 的 策略 是 为 系统 建立 元 余 ， 并 使 系统 具备 故障 转移 能 力 ， 这 样 当 
故障 发 生 时 ， 可 以 在 完 余 组 件 间 进行 切换 。 不 幸 的 是 ， 宛 余 会 让 系统 变 得 相当 复杂 。 现 
在 应 用 不 再 是 集中 化 的 ， 而 是 分 布 式 的 ， 这 意味 着 协调 、 同 步 、CAP 定理 、 拜 占 庭 将 军 
问题 ， 以 及 所 有 其 他 各 种 杂乱 的 东西 。 这 也 是 像 NDB Cluster 这 样 的 系统 很 难 创建 并 且 
很 难 提 供 足 够 的 通用 性 来 为 所 有 的 工作 负载 提供 服务 的 原因 。 但 这 种 情况 正在 改善 ， 也 
许 到 本 书 第 四 版 的 时 候 我 们 就 可 以 称赞 一 个 或 多 个 集群 数据 库 了 。 


本 章 和 前 面 两 章 提 及 的 话题 常常 被 放 在 一 起 讨论 : 复制 、 可 扩展 性 ， 以 及 高 可 用 性 。 我 
们 已 经 尽量 将 它们 独立 开 来 ， 因 为 这 有 助 于 理 清 这 些 话题 的 不 同 之 处 。 那 么 这 三 章 有 哪 
些 关 联 之 处 呢 ? 


在 其 应 用 增长 时 ， 人 们 一 般 希 望 从 他 们 的 数据 库 中 知道 三 件 事 : 


。 ”他 们 希望 能 够 增加 容量 来 处 理 新 增 的 负载 而 不 会 损失 性 能 。 
。 ”他 们 希望 保证 不 丢失 已 提交 的 事务 。 | 
。 他 们 和 希望 应 用 能 一 直 在 线 并 处 理事 务 ， 这 样 他 们 就 能 够 一 直 赚 钱 。 


为 了 达到 这 些 目的 ， 人 们 常常 首先 增加 元 余 。 结 合 故 障 转移 机 制 ， 通 过 最 小 化 MTTR 来 
提供 高 可 用 性 。 这 些 元 余 还 提供 了 空闲 容量 ， 可 以 为 更 多 的 负载 提供 服务 。 


当然 ， 除 了 必要 的 资源 外 ， 还 必须 要 有 一 份 数据 副本 。 这 有 助 于 在 损失 服务 器 时 避免 丢 
失 数据 ,从 而 增强 持久 性 。 生成 数据 副本 的 唯一 办 法 是 通过 某 种 方法 进行 复制 。 不 举 的 是 ， 
数据 副本 可 能 会 引入 不 一 致 。 处 理 这 个 问题 需要 在 节点 间 协 调和 通信 。 这 给 系统 带 来 了 
额外 的 负担 ; 这 也 是 系统 或 多 或 少 存在 扩展 性 问题 的 原因 。 


数据 副本 还 需要 更 多 的 资源 (例如 更 多 的 硬盘 驱动 器 ， 更 多 的 RAM) ， 这 会 增加 开销 。 
有 一 个 办 法 可 以 减少 资源 消耗 和 维护 一 致 性 的 开销 ， 就 是 为 数据 分 区 (分 片 ) 并 将 每 个 
分 片 分 发 到 特定 的 系统 中 。 这 可 以 减少 需要 复制 的 重复 数据 的 次 数 ， 并 从 资源 元 余 中 分 
离 数据 元 余 。 


所 以 ， 尽 管 一 件 事 总 会 导致 男 外 一 件 事 ， 但 我 们 是 在 讨论 一 组 相关 的 观 扣 和 实践 来 达成 
一 系列 目的 。 他 们 不 仅仅 是 讲述 同一 件 事 的 不 同方 式 。 


最 后 ,需要 选择 一 个 对 你 和 应 用 有 意义 的 策略 。 决 定 选择 一 个 完全 的 端 到 端 (end-to-end) 


高 可 用 性 策略 并 不 能 通过 简单 的 经 验 法 则 来 处 理 ， 但 我 们 给 出 的 一 些 粗略 的 指引 也 许 会 
有 上 所 帮助 。 


为 了 获得 很 短 的 宕 机 时 间 ， 需 要 元 余 服 务 器 能 够 及 时 地 接管 应 用 的 工作 负载 。 它 们 必须 
在 线 并 一 直 执 行 查询 , 而 不 仅仅 是 备用 , 因此 它们 是 “ 预 热 ”过 的 , 处 于 随时 可 用 的 状态 。 


如 果 需 要 很 强 的 可 用 性 保证 ， 就 需要 诸如 MySQL Cluster, Percona XtraDB Cluster, 或 
者 Clustrix 这 样 的 集群 产品 。 如 果 能 容忍 在 故障 转移 过 程 中 稍微 慢 一 些 ， 标 准 的 MySQL 
复制 也 是 个 很 好 的 选择 。 要 谨慎 使 用 自动 化 故障 转移 机 制 , 如 果 没 有 按照 正确 的 方式 工 
作 ， 它 们 可 能 会 破坏 数据 。 


如 果 不 是 很 在 意 故 障 转移 花费 的 时 间 ， 但 希望 避免 数据 丢失 ， 就 需要 一 些 强 力 保证 数据 
的 元 余 一 一 例如 ， 同 步 复 制 。 在 存储 层 ， 这 可 以 通过 廉价 的 DRBD 来 实现 ， 或 者 使 用 两 
个 昂贵 的 SAN 来 进行 同步 复制 。 也 可 以 选择 在 数据 库 层 复 制 数据 ， 可 以 使 用 的 技术 包 
括 MySQL Cluster, Percona XtraDB Cluster 或 者 Clustrix。 也 可 以 使 用 一 些 中 间 件 ， 例 
40 Tungsten Replicator。 如 果 不 需要 强 有 力 的 保护 ， 并 且 和 希望 尽量 保证 简单 ， 那 么 正常 
的 异步 复制 或 半 同 步 复制 在 开销 合理 时 可 能 是 很 好 的 选择 。 


或 者 也 可 以 将 应 用 放 到 云 中 。 为 什么 不 呢 ? 这 样 难道 不 是 能 够 立刻 获得 高 可 用 性 和 无 限 
扩展 能 力 吗 ? 下 一 章 将 继续 探讨 这 个 问题 。 
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许多 人 在 云 中 使 用 MySQL， 有 时 候 规模 还 非常 庞大 ， 这 并 不 奇怪 。 从 我 们 的 经 验 来 看 ， 
大 多 数 人 使 用 的 是 Amazon Web Services 平台 (AWS) : 特别 是 Amazon 的 弹性 计算 云 
(Elastic Compute Cloud, EC2), ， 弹 性 块 存 储 (Elastic Block Store，EBS) ， 以 及 更 小 众 
的 关系 数据 库 服务 (Relational Database Service, RDS). 


为 了 便于 讨论 MySQL 在 云 中 的 应 用 ， 可 以 将 其 粗略 分 为 两 类 。 


TaaS (基础 设施 即 服务 ) 
laas 是 用 于 托管 自 有 的 MySQL 服务 器 的 云端 基础 架构 。 可 以 在 云端 购买 虚拟 的 服 
务 器 资源 来 安装 运行 MySQL 实例 。 也 可 以 根据 需求 随意 配置 MySQL 和 操作 系统 ， 
但 没有 权限 也 无 法 看 到 处 于 底层 的 物理 硬件 设备 。 

DBaaS (数据 库 即 服务 ) 
MySQL 本 身 作为 由 云端 管理 的 资源 。 用户 需 要 先 收 到 MySQL 服务 器 的 访问 许可 ( 通 
常 是 一 个 连接 串 ) 才能 访问 。 也 可 以 配置 一 些 MySQL 选项 ， 但 没有 权限 去 控制 或 
查看 底层 的 操作 系统 或 虚拟 服务 器 实例 。 例 如 Amazon 运行 MySQL 的 RDS。 其 中 
一 些 服务 器 并 非 真 的 使 用 MySQL， 但 它们 能 兼容 MySQL 协议 和 查询 语言 。 


我 们 讨论 的 重点 主要 集中 在 第 一 类 : 云 托管 平台 ,例如 AWS、Rackspace Cloud 以 及 
Joyent = :。 有 许多 很 好 的 资源 介绍 如 何 部 署 和 管理 MySQL 及 其 运行 所 需要 的 资源 ， 并 
且 也 有 非常 多 的 平台 来 完全 满足 这 样 的 需求 ， 所 以 我 们 不 会 展示 代码 样 例 或 讨论 具体 
的 操作 技术 。 因 此 ， 本 章 关 注 的 重点 是 ， 在 云端 运行 MySQL 还 是 在 传统 服务 器 上 部 署 
MySQL， 它 们 在 最 终 经 济 上 和 性 能 特性 上 的 关键 区 别 是 什么 。 我 们 假定 你 对 云 计 算 很 熟 
悉 。 这 里 不 是 对 云 计 算 概念 的 简单 介绍 ， 我 们 的 目的 只 是 帮助 那些 还 不 熟悉 在 云端 部 团 
MySQL 的 用 户 在 使 用 时 避免 一 些 可 能 遇 到 的 陷阱 。 


注 1: OK, AMi. Amazon 网 络 服务 是 一 个 云 。 本 章 主 要 讨论 AWS, 
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一 般 来 说 , MySQL 能 够 在 云 中 很 好 地 运行 。 在 云 中 运行 MySQL 并 不 比 在 其 他 平台 困难 ， 
但 有 一 些 非常 重要 的 差别 。 你 需要 注意 这 些 差别 并 据 此 设计 应 用 和 架构 来 获得 好 的 效果 。 
某 些 场景 下 在 云端 托管 MySQL 并 不 是 非常 适合 ， 有 时候 则 很 适合 ， 但 大 多 数 时 候 云 仅 
仅 是 另外 一 个 部 署 平台 而 已 。 


云 是 一 个 部 署 平台 ， 而 不 是 一 种 架构 ， 理 解 这 一 点 很 重要 。 架 构 会 受 平台 的 影响 ， 但 平 
台 和 染 构 明显 不 同 。 如 采 你 把 架构 和 平台 搞 混 了 ， 就 可 能 会 做 出 不 合适 的 选择 而 给 以 后 
带 来 麻烦 。 这 也 正 是 我 们 要 花 时 间 讨 论 云端 的 MySQL 到 底 有 什么 不 同 的 原因 。 


13.1 云 的 优点 、 缺 点 和 相关 误解 


云 计算 有 许多 优点 ， 但 很 少 是 为 MySQL 特别 设计 。 有 一 些 书籍 已 经 介绍 了 相关 的 话 
题 “， 这 里 我 们 不 再 痪 述 。 不 过 我 们 会 列 出 一 些 比较 重要 的 条 目 供 参 考 ， 因 为 接 下 来 会 
讨论 到 云 计 算 的 缺点 ， 我 们 不 希望 你 认为 我 们 是 在 过 分 苛求 云 计 算 。 


© 云 是 一 种 将 基础 设施 外 包 出 去 无 须 自己 管理 的 方法 。 你 不 需要 寻找 供应 商 购 买 硬件 ， 
也 不 需要 维护 和 供应 商 之 间 的 关系 ， 更 无 须 替 换 失 效 的 硬盘 驱动 器 等 。 

。 云 一 般 是 按照 即 用 即 付 的 方式 支付 ， 可 以 把 前 期 的 大 量 资本 支出 转换 为 持续 的 运营 
成 本 。 

。 ” 随 着 供应 商 发 布 新 的 服务 和 成 本 降低 ， 云 提供 的 价值 越 来 越 大 。 你 自己 无 须 做 任何 
事情 (例如 升级 服务 器 )， 就 可 以 从 这 些 提升 中 获 益 , 随 着 时 间 推 移 你 会 很 容易 地 获 
得 更 多 更 好 的 选择 并 且 费 用 更 低 。 

。 云 能 够 帮助 你 轻松 地 准备 好 服务 器 和 其 他 资源 ， 在 用 完 后 直接 将 其 关闭 ， 而 无 须 关 
注 怎 么 处 理 它们 ， 或 者 怎么 卖 掉 它们 收回 成 本 。 

© 云 代 表 了 对 基础 设施 的 另 一 种 思考 方式 一 一 作为 通过 API 来 定义 和 控制 的 资源 一 一 
支持 更 多 的 自动 化 操作 。 从 “私有 云 ” 中 也 可 以 获得 这 些 好 处 。 


当然 ， 不 是 所 有 跟 云 相 关 的 东西 都 是 好 的 。 这 里 有 一 些 缺 点 可 能 会 构成 挑战 (在 本 章 稍 
后 部 分 我 们 会 列 出 MySQL 特有 的 缺点 ) 。 


。 资源 是 共享 并 且 不 可 预测 的 ， 实 际 上 你 可 以 获得 比 你 支付 的 更 多 的 资源 。 这 听 起 来 
很 不 错 ， 但 却 导 致 容量 规划 很 难 做 。 如 果 你 在 不 知情 的 情况 下 获得 了 比 理应 享受 到 
的 更 多 的 计算 资源 ， 那 么 就 存在 这 样 的 风险 : 别人 也 许 会 索要 他 们 应 得 的 资源 ， 这 
会 使 你 的 应 用 性 能 退化 到 应 有 的 水 平 。 一 般 来 说 ， 很 难 确切 地 知道 本 来 应 该 得 到 多 
> (资源 )， 大 多 数 云 托管 服 务 提供 商 不 会 对 此 给 出 确切 的 答案 。 

。 无 法 保证 容量 和 可 用 性 。 你 可 能 以 为 还 可 以 获得 新 实例 ， 但 如 果 供 应 商 已 经 超额 销 


注 2: 参阅 George Reese 所 写 的 Cloud Application Architectures (O’Reilly) 。 
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售 了 呢 ? 这 在 有 很 多 共享 资源 的 情况 下 会 发 生 ， 同 样 也 会 发 生 在 云 中 。 

。 虚拟 的 共享 资源 导致 排查 故障 更 加 困难 ， 特 别 是 在 无 法 访问 底层 物理 硬件 的 情况 下 
无 法 检查 并 和 弄 清 到 底 发 生 了 什么 。 例 如 ， 我 们 曾经 看 到 过 一 些 系 统 的 iostat 显示 的 
IO 很 正常 或 者 vmstat 显示 的 CPU 很 正常 ， 而 当 实 际 衡量 完成 一 个 任务 需要 的 时 间 
时 ， 资 源 却 被 系统 上 的 其 他 东西 严重 占用 了 。 如 果 在 云 平 台 上 出 现 了 性 能 问题 ， 尤 
其 需要 去 仔细 地 分 析 检 测 。 如 果 对 此 并 不 擅长 ， 可 能 就 无 法 确认 到 底 是 底层 系统 性 
能 差 ， 还 是 你 做 了 什么 事情 导致 应 用 出 现 不 合理 的 资源 需求 。 | 


总 的 来 说 ， 云 平台 上 对 性 能 、 可 用 性 和 容量 的 透明 性 和 控制 力 都 有 所 下 降 。 最 后 ， 还 有 
一 些 对 云 的 误解 需要 记 住 。 


云天 生 具 备 更 好 的 可 扩展 性 
应 用 、 云 的 架构 ， 以 及 管理 云 服 务 的 组 织 是 不 是 都 是 可 扩展 的 。 云 并 不 是 天 生 可 扩 
展 的 ， 云 也 仅仅 是 去 而已， 选择 一 个 可 扩展 的 平台 并 不 能 自动 使 应 用 变 得 可 扩展 。 
的 确 ， 如 果 云 托管 提供 商 没 有 超 售 ， 那 么 你 可 以 根据 需求 来 购买 资源 ， 但 在 需要 时 
能 够 获得 资源 仅仅 是 扩展 性 的 一 个 方面 而 已 。 

云 可 以 自动 改善 甚至 保证 可 用 时 间 
一 般 来 说 ， 个 别 在 云端 托管 的 服务 器 比 那 些 经 过 良好 设计 的 专用 基础 设施 更 容易 发 
生 故 障 或 运行 中 断 。 但 是 许多 人 并 没有 意识 到 这 一 点 。 例 如 ， 有 人 这 样 写 道 : “我 们 
将 基础 设施 升级 到 基于 云 构建 的 系统 以 保证 100% 的 可 用 时 间 和 可 扩展 性 ”。 而 就 在 
这 之 前 AWS 遭受 了 两 次 大 规模 的 运行 中 断 故障 ， 导 致 很 大 一 部 分 用 户 受 影响 。 好 
的 架构 能 够 用 不 可 靠 的 组 件 设计 出 可 靠 的 系统 ， 但 通常 更 可 靠 的 基础 设施 可 以 获得 
更 高 的 可 用 性 。( 当 然 不 可 能 有 100% 的 可 用 时 间 的 系统 。) 
另 一 方面 ， 购 买 云 计算 服务 ， 实 际 上 是 购买 一 个 由 专家 构建 的 平台 。 他 们 已 经 考虑 
了 许多 底层 的 东西 ， 这 意味 着 你 可 以 更 专注 于 上 层 工作 。 如 果 构 建 自己 的 平台 而 对 
其 中 的 那些 细 枝 末节 并 不 精通 ， 就 可 能 犯 一 些 初学 者 的 错误 ， 早 晚会 导致 一 些 宕 机 
时 间 。 从 这 一 点 来 说 ， 云 计算 能 够 帮助 改善 可 用 时 间 。 

云 是 唯一 能 提供 [这 里 填 入 任意 的 优点 ] 的 东西 
事实 上 ， 许 多 云 的 优点 是 继承 自 构建 云 平 台所 用 到 的 技术 ， 即 使 不 使 用 云 也 可 以 获 
得 二。 例如 , 通过 管理 得 当 的 虚拟 化 和 容量 规划 , 可 以 像 任 何 一 个 云 平台 那样 简单 快 
速 地 启动 (spin up) 一 台新 的 机 器 。 完 全 没 必 要 专门 使 用 云 来 做 到 这 一 点 。 

云 是 一 个 “ 银 弹 ” (silver bullet) 
虽然 大 部 分 人 会 认为 这 很 荒 雇 ， 但 确实 有 人 会 这 么 认为 。 实 际 上 完全 没有 这 回 事 。 


无 可 否认 ， 云 计算 提供 了 独特 的 优点 ， 随 着 时 间 的 推移 ， 关 于 云 计算 是 什么 ， 以 及 它们 


注 3 : 我 们 不 是 说 这 会 更 加 容易 或 便宜 ， 我 们 只 是 说 云 并 不 是 能 获得 这 些 好 处 的 唯一 途径 。 
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在 什么 情况 下 会 有 帮助 ， 我 们 会 获得 更 多 的 共识 。 但 有 一 点 非常 肯定 : 它 是 全 新 的 ， 我 
们 现在 所 做 的 任何 预测 都 未 必 经 得 起 时 间 的 考验 。 我 们 会 在 本 书 讨论 相对 安全 的 部 分 ， 
而 将 剩 下 的 部 分 留 给 读者 讨论 。 i 


13.2 MySQL 在 云端 的 经 济 价值 


在 一 些 场景 下 云 托管 比 传统 的 服务 器 部 署 方式 更 经 济 。 以 我 们 的 经 验 来 看 ， 云 托管 比较 
适合 疝 处 于 初级 阶段 的 企业 ， 或 者 那些 持续 接触 新 概念 并 且 本 质 上 是 以 适用 为 主 的 企业 ， 
例如 移动 应 用 开发 者 或 游戏 开发 者 。 这 些 技术 的 市 场 随 着 移动 计算 的 扩张 出 现 了 爆炸 式 
增长 ， 并 且 仍 然 是 快速 发 展 的 领域 。 在 许多 情况 下 ， 成 功 的 因素 并 不 为 开发 者 所 控制 ， 
例如 口 口 相传 的 推荐 或 者 恰 着 重要 国际 事件 的 时 机 。 


我 们 已 经 帮助 很 多 公司 在 云 中 构建 移动 应 用 、 社 交 网 络 以 及 游戏 应 用 。 其 中 一 个 他 们 大 
量 使 用 的 策略 是 尽 可 能 又 快 又 便宜 地 开发 和 发 布 应 用 。 如 果 一 个 应 用 碰巧 变 得 流行 了 ， 
公司 将 投入 资源 扩大 其 规模 ， 否则 就 会 很 快 终结 这 些 应 用 。 一 些 公 司 构建 并 发 布 的 应 用 
的 生命 周期 甚至 只 有 几 个 星期 ， 在 这 样 的 环境 下 ， 可 以 毫 不 犹豫 地 选择 云 托管 。 


如 采 是 一 个 小 规模 的 公司 ， 可 能 无 法 提供 足够 的 硬件 来 自 建 数据 中 心 以 满足 一 个 非常 流 
行 的 Facebook 应 用 的 发 展 曲线 。 我 们 也 协助 过 一 些 大 型 的 Facebook 应 用 进行 扩展 ， 它 
们 能 够 以 今 人 惊讶 的 速度 增长 一 一 有 时 甚至 会 快 到 让 一 个 主机 托管 公司 耗 尽 资源 。 更 为 
严重 的 是 ， 这 些 应 用 的 增长 是 完全 无 法 预测 的 ， 它 们 可 能 只 有 极 少量 的 用 户 (也 可 能 突 
然 有 了 爆炸 性 的 用 户 数量 增长 )。 我 们 在 数据 中 心 和 云 中 都 遇 到 过 这 样 的 应 用 。 如 果 是 
一 个 小 公司 ， 云 可 以 帮 你 避免 前 期 快速 注入 大 量 的 资金 来 获得 更 快 更 大 规模 的 风险 。 


云 的 男 一 种 奖 在 的 大 用 途 是 运行 不 是 很 重要 的 基础 设施 ， 例 如 集成 环境 、 开 发 测试 平台 ， 
以 及 评估 环境 。 假设 部 署 周 期 是 两 个 星期 。 你 会 每 天 每 个 小 时 都 测试 部 署 一 次 ， 还 是 只 
在 项 目 最 后 的 冲刺 时 测试 ? 许多 用 户 只 是 偶尔 需要 筹划 和 部 署 测 试 环 境 。 在 这 种 场景 下 ， 
云 可 以 帮助 市 约 不 少 钱 。 


以 下 是 我 们 使 用 云 的 两 种 方式 。 第 一 个 是 作为 我 们 对 技术 职员 面试 的 一 部 分 ， 我 们 会 询 
问 如 何 解决 一 些 实际 的 问题 。 我 们 使 用 AMI(Amazon Machine Images) 来 模拟 一 些 被 “ 破 
坏 ” 的 机 器 ， 然 后 让 求职 者 登录 并 在 服务 器 上 执行 一 系列 任务 。 我 们 不 必 开 放 他 们 到 内 
部 网 络 的 授权 ， 这 种 方案 显然 要 方便 得 多 。 另 一 个 是 作为 新 项 目的 工作 平台 和 开发 服务 
器 。 有 一 个 这 样 的 项 目 已 经 在 一 台 云 端 开 发 服务 器 上 运行 了 数 个 月 ,而 花费 不 足 一 美元 ! 
这 在 我 们 自己 的 基础 设施 上 是 不 可 能 做 到 的 。 单 是 发 送 一 封 邮 件 给 系统 管理 员 申 请 开发 
服务 器 的 时 间 价 值 就 不 止 一 美元 。 
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但 是 另 一 方面 ， 云 托管 对 于 长 期 项 目 而 言 可 能 会 更 加 昂贵 。 如 果 打 算 长 远 地 使 用 云 ， 就 
需要 花 时间 来 计算 一 下 〈( 它 是 否 划算 )。 除 了 猜想 未 来 的 创新 能 给 云 计 算 和 商用 硬件 带 
来 什么 ， 还 需要 做 基准 测试 以 及 一 个 完整 的 总 体 持 有 成 本 (TCO) 账单 。 为 了 理 清 事情 
的 本 质 并 孝 虑 全 面 所 有 相关 的 细 市 ， 你 需要 把 所 有 的 事情 最 终归 结 为 一 个 数字 : 每 美元 
的 业务 交易 数 。 事 情 变化 得 太 快 ， 所 以 我 们 将 这 个 留 给 读者 思考 。 


13.3 云 中 的 MySQL 的 可 扩展 性 和 高 可 用 性 


正如 我 们 之 前 提 到 的 ，MySQL 并 不 会 在 云端 自动 变 得 更 具 扩 展 性 。 事 实 上， 如 果 机 器 
的 性 能 较 差 ， 会 导致 过 早 使 用 横向 扩展 策略 。 况 且 云 托管 服务 器 相 比 专用 的 硬件 可 靠 性 
和 可 预测 性 要 更 差 些 ， 所 以 想 在 云端 获得 高 可 用 性 需要 更 多 的 创新 。 


但 是 总 的 来 说 ， 在 云端 中 扩展 MySQL 和 在 其 他 地 方 扩展 没有 太 多 的 差别 。 最 大 的 不 同 
就 是 按 需 提供 服务 器 的 能 力 。 但 是 也 有 某 些 限制 会 导致 扩展 和 高 可 用 实现 起 来 有 点 麻烦 ， 
至 少 在 有 些 云 环境 中 是 这 样 的 。 例 如 ， 在 AWS 云 平台 中 ， 无 法 使 用 类 似 虚 拟 IP 地 址 的 
功能 来 完成 快速 原子 故障 转移 。 像 这 种 对 资源 的 有 限 控制 意味 着 你 需要 使 用 其 他 办 法 ， 
例如 代理 。(ScaleBase 也 值得 去 看 看 。) 


云 另 外 一 个 迷惑 人 的 地 方 是 梦想 中 的 自动 扩展 一 一 就 是 根据 需求 的 增加 或 减少 来 启动 或 
关闭 实例 。 尽 管 对 于 诸如 Web 服务 器 这 样 的 无 状态 部 分 是 可 行 的 ， 但 对 于 数据 库 服 务 器 
而 言 则 很 难 做 到 ， 因 为 它 是 有 状态 的 。 对 于 一 些 特定 的 场景 ， 例 如 以 读 为 主 的 应 用 ， 可 
以 通过 增加 备 库 的 方式 来 获得 有 限 的 自动 扩展 “， 但 这 并 不 是 一 个 通用 的 解决 方案 。 实 


际 上 ,虽然 许多 应 用 在 Web 层 使 用 了 自动 扩展 ,但 MySQL 并 不 具备 在 一 个 无 共享 (Shared 


Nothing) 集群 中 的 对 等 角色 服务 器 之 间 迁 移 的 能 力 。 你 可 以 通过 分 片 架构 来 目 动 重 新 分 
片 并 自动 增长 或 收缩 ， 但 MySQL 本 身 是 无 法 自动 扩展 的 。 


事实 上 ， 因 为 数据 库 通常 是 一 个 应 用 系统 中 主要 或 唯一 的 有 状态 并 且 持 和 久 化 的 组 件 ， 所 
以 把 应 用 服务 迁移 到 云端 是 很 普 过 的 事情 ， 因 为 除数 据 库 之 外 的 所 有 部 分 都 可 以 从 云 中 
收益 一 一 Web 服务 器 、 工 作 队列 服务 器 、 缓 存 等 一 一 而 MySQL 只 需要 处 理 剩 下 的 东西 。 


毕 竞 ， 数 据 库 并 非 世 界 的 中 心 。 如 果 应 用 系统 其 他 部 分 获得 的 好 处 ， 超 过 了 让 MySQL 
运行 得 足够 好 而 投入 的 额外 开销 和 必需 的 工作 量 ， 那 这 不 是 一 个 是 否 会 发 生 的 问题 ， 而 
是 怎么 发 生 的 问题 。 要 回答 这 个 问题 ， 最 好 先 了 解 你 在 云 中 可 能 磁 到 的 额外 的 挑战 。 这 
些 通常 围绕 着 数据 库 服务 器 的 可 用 资源 。 


注 4: ”Scalr (http:/scalrnet) 是 一 个 流行 的 开源 服务 ， 用 于 在 云 中 进行 MySQL 复制 自动 扩展 。 
注 5: 计算 机 科学 家 喜欢 将 之 称 为 “重大 挑战 ” (non-trivial challenge). 
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13.4 四 种 基础 资源 


MySQL 需要 四 种 基础 资源 来 完成 工作 : CPU 周期 、 内 存 、I/O， 以 及 网 络 。 这 四 种 资 
源 的 特性 和 重要 程度 在 不 同 的 云 平台 上 各 不 相同 。 可 以 通过 了 解 它们 的 不 同 之 处 和 对 
MySQL 的 影响 ， 以 决定 是 否 选择 在 云 中 托管 MySQL. 


CPU 通常 很 少 且慢 。 在 写作 本 书 时 最 大 的 标准 EC2 实例 提供 8 个 虚拟 CPU 核心 。 
EC2 提供 的 虚拟 CPU 比 高 端 CPU 的 速度 明显 要 慢 很 多 (可 以 查看 本 章 稍 后 的 基准 
测试 结果 )。 虽 然 可 能 略 有 不 同 ， 但 很 可 能 在 大 多 数 云 托管 平台 中 这 都 是 一 种 普遍 现 
象 。EC2 提供 使 用 多 个 CPU 资源 的 实例 ， 但 它们 的 最 大 可 用 内 存 却 更 低 。 在 写作 本 
书 时 商用 服务 器 能 提供 几 十 个 CPU 核心 一 一 甚至 更 多 ， 如 果 按 硬件 线程 算 的 话 。< 
内 存 大 小 受 限 制 。 最 大 的 EC2 实例 当前 能 提供 68.4GB 的 内 存 。 与 此 相 比 ， 商 用 服 
务 器 能 提供 512GB ~ 1TB 的 内 存 。 

IO 的 吞吐 量 、 延 迟 以 及 一 致 性 受到 限制 。 在 AWS 云 中 有 两 个 存储 选项 。 

第 一 个 选择 是 使 用 EBS 卷 ， 这 有 点 类 似 云 中 的 SAN。AWS 的 最 佳 实践 是 在 用 EBS 
组 建 的 RAID10 卷 上 建立 服务 器 。 但 是 EBS 是 一 个 共享 资源 ， 就 像 EC2 服务 器 和 
EBS 服务 器 之 间 的 网 络 连接 。 延 迟 可 能 会 很 高 并 且 不 可 预测 ， 即 使 是 在 适量 的 吞吐 
量 需求 下 也 是 如 此 。 我 们 已 经 测 得 EBS 设备 的 1/0 延迟 可 以 达到 十 几 分 之 一 秒 。 相 
比 之 下 ， 直 接 插 在 本 机 的 商用 硬盘 驱动 器 只 需 几 个 毫秒 ， 而 闪存 设备 比 硬盘 驱动 器 
的 速度 又 要 高 出 几 个 数量 级 。 但 另 一 方面 ，EBS 卷 也 有 许多 很 好 的 特性 ， 例 如 和 其 
他 AWS 服务 、 快 照 等 结合 起 来 使 用 。 

第 二 个 选择 是 实例 的 本 地 存储 。 每 个 EC2 服务 器 有 一 定数 量 的 本 地 存储 ， 实 际 安装 
在 底层 服务 器 上 。 它 能 够 比 EBS 提供 更 多 的 一 致 性 性 能 7， 但 如 果实 例 停止 了 就 无 
法 做 到 持久 化 。 正 是 由 于 这 样 的 特性 导致 其 不 适合 大 多 数 的 数据 库 服 务 器 场景 。 
尽管 网 络 通常 是 一 个 变化 多 端的 共享 资源 ， 但 是 性 能 通常 比较 好 。 虽 然 使 用 商用 硬 
件 可 以 获得 更 快 更 持续 的 网 络 性 能 , 但 CPU、RAM 和 I/O 更 容易 成 为 主要 的 性 能 
JR, Æ AWS 云 中 我 们 还 没有 过 到 过 网 络 性 能 问题 。 





正如 你 所 看 到 的 ,四 种 基础 资源 中 有 三 种 在 AWS 云 中 是 受 限 的 , 在 某 些 场景 下 尤其 明显 。 
总 的 来 说 ， 这 些 基础 资源 并 没有 商业 硬件 那样 的 性 能 。 下 一 节 我 们 会 讨论 这 些 确切 的 结 


论 。 
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在 CPU、RAM 以 及 LO 上 ， 商 用 硬件 能 够 提供 超过 MySQL 可 以 有 效 利用 的 硬件 能 力 ， 所 以 将 去 
与 云 之 外 可 获得 的 最 强硬 件 相 比 较 并 不 是 完全 公平 的 。 
直到 写 入 的 时 候 本 地 存储 才 会 被 分 配给 实例 ， 导致 每 个 写 入 的 块 发 生 “ 第 一 次 写 处 罚 5 Cpaie 
penalty) 。 避 免 这 个 问题 的 办 法 是 使 用 dd 去 写 满 设备 。 
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13.5 MySQL 在 云 主 机 上 的 性 能 


通常 ， 由 于 较 差 的 CPU、 内 存 以 及 I/O 性 能 ， 在 类 似 AWS 这 样 的 云 托 管 平 台 上 MySQL 
所 表现 出 来 的 性 能 并 不 如 在 其 他 地 方 好 。 这 些 情况 在 不 同 的 云 平台 之 间 略 有 不 同 ， 但 这 
依然 是 普遍 的 事实 六 s。 然 而 对 于 你 的 需求 而 言 ， 云 主机 可 能 仍然 是 一 个 性 能 足够 高 的 平 
台 ， 在 某 些 需求 上 云 平 台 可 能 比 另外 的 解决 方案 要 好 。 


如 果 使 用 更 糟糕 的 硬件 来 运行 MySQL， 无 法 让 MySQL 性 能 比 托管 在 云 平台 上 更 高 ， 这 
并 不 奇怪 。 真 正 让 人 感到 困惑 的 是 在 相似 规格 的 物理 硬件 条 件 下 却 无 法 获得 同样 的 运行 
速度 。 例 如 ， 如 果 有 一 台 服 务 器 拥有 8 个 CPU 核心 ，16GB 内 存 以 及 一 个 中 等 的 RAID 
阵列 ， 你 可 能 认为 能 够 获得 和 一 个 拥有 8 个 EC2 计算 单元 、15GB 内 存 以 及 少量 EBS & 
的 EC2 实例 相同 的 性 能 ， 但 这 是 无 法 保证 的 。EC2 实例 的 性 能 可 能 比 你 的 物理 硬件 更 加 
多 变 ， 特 别 是 它 不 是 一 个 超大 实例 时 ， 可 以 推测 它 跟 其 他 实例 共享 了 同样 的 硬件 资源 。 


稳定 性 确实 非常 重要 。MySQL 和 InnoDB 尤其 不 喜欢 不 稳定 的 性 能 一 一 特别 是 不 稳定 
的 I/O 性 能 。I/O 操作 会 请 求 服务 器 内 部 的 互 斥 锁 ， 当 持续 时 间 太 长 时 ， 就 会 显著 地 导 
致 很 多 “阻塞 ”进程 堆积 起 来 ， 出 现 令 人 难以 理解 的 长 时 间 运 行 的 查询 语句 ， 以 及 例如 
Threads_running 或 Threads_connected 这 样 的 状态 变量 产生 毛刺 。 


实际 应 用 中 前 后 不 一 致 或 者 无 法 预测 的 性 能 导致 的 结果 就 是 排队 变 得 越 来 越 严 重 。 排 队 
是 响应 时 间 和 到 达 间 隔 时 间 多 变 自然 会 导致 的 结果 ， 并 且 有 个 完整 的 数学 分 支 专门 致力 
于 排队 的 研究 。 所 有 的 计算 机 都 是 队列 系统 的 网 络 ， 当 需要 请 求 的 资源 (CPU, I0, W 
络 ， 等 等 ) 繁忙 时 ， 请 求 必须 等 待 。 当 资源 性 能 更 加 多 变 时 ， 请 求 更 容易 堆 和 全 ,会 出 现 
更 多 的 排队 现象 。 因 此 ， 在 大 多 数 云 计 算 平 台 上 很 难 获得 高 并 发 或 者 稳定 的 低 响应 时 间 。 
我 们 有 很 多 次 在 EC2 平台 上 章 受 到 这 个 限制 的 经 验 。 以 我 们 的 经 验 来 看 ， 即 便 在 最 大 的 
实例 上 运行 的 MySQL,， 在 典型 的 Web OLTP 工作 负载 上 ， 你 能 够 期 待 的 最 高 并 发 度 也 
就 是 Threads_running 值 为 8 ~ 12。 根 据 经 验 , 当 超过 这 个 值 时 ,性 能 会 越 来 越 不 可 接受 。 


注意 我 们 所 说 的 “典型 的 Web OLTP 工作 负载 *， 并 非 所 有 的 工作 负载 都 以 相同 的 方式 
反映 云 平台 的 限制 。 确 实 有 一 些 工作 负载 在 云 中 表现 得 很 好 ， 而 有 一 些 则 受到 严重 影响 ， 
让 我 们 看 看 到 底 有 哪些 。 


。 ”正如 我 们 刚 讨论 的 ， 需 要 高 并 发 的 工作 负载 并 不 是 非常 适合 云 计算 。 对 于 那些 要 求 
非常 快 的 响应 时 间 的 应 用 同样 如 此 。 原 因 可 以 归结 于 虚拟 CPU 的 数目 和 速度 方面 的 
限制 。 每 个 MySQL 查询 运行 在 一 个 单独 的 CPU 上 ， 所 以 查询 响应 时 间 实 际 上 是 由 
CPU 的 原始 速度 决定 的 。 如 果 期 望 得 到 更 快 的 响应 时 间 ， 就 需要 更 快 的 CPU。 为 了 





注 8: 如 果 你 相信 jp:Mprwmwxkcd comy/908/， 那 么 显然 所 有 的 云 痢 有 同样 的 缺点 ， 我 们 刚刚 已 经 提 过 。 
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支持 更 高 的 并 发 度 ， 你 需要 更 多 的 CPU。MySQL 和 InnoDB 不 会 因为 运行 在 大 量 
CPU 核心 上 而 提供 爆炸 式 的 改进 ， 但 目前 通常 能 在 至 少 24 个 核心 上 获得 比较 好 的 
横 由 扩展 ， 这 通常 比 在 云 中 能 够 获得 的 核心 数 更 多 。 

。 那些 需要 大 量 LO 的 工作 负载 在 云 中 并 不 总 是 表现 很 好 。 当 LO 很 慢 并 且 不 稳定 时 ， 
工作 会 很 快 中 断 。 但 另 一 方面 ,如 果 你 的 工作 负载 不 需要 太 多 的 IO, 不 管 是 吞吐 量 (每 
秒 的 执行 量 ) 还 是 带宽 〈 每 秒 字 节 数 ) MySQL 就 可 以 运行 得 很 好 。 


之 前 的 几 点 是 根据 云端 的 CPU 和 IO 资源 的 缺点 得 出 的 。 那 么 关于 这 些 你 可 以 做 点 什么 
WE? 对 于 CPU 限制 你 做 不 了 太 多 ， 不 够 就 是 不 够 。 但 是 IO 则 不 同 。I/O 实际 上 是 两 种 
存储 器 的 交换 : 非 永久 存储 器 (RAM) 和 持久 化 存储 器 (磁盘 、EBS， 或 者 其 他 你 所 拥 
有 的 )。 因 此 MySQL 的 IO 需求 会 受 系统 内 存 大 小 的 影响 。 当 有 足够 的 内 存 时 ， 可 以 从 
缓存 中 读 取 数据 ， 从 而 减少 读 和 写 操作 的 IIJO。 写 入 同样 可 以 缓存 在 内 存 里 ， 多 个 对 相 
同 内 存 比特 位 的 写 入 可 以 合并 成 单个 IO 操作 。 


内 存 的 限制 就 出 现 了 。 当 拥有 足够 的 内 存 来 存放 工作 数据 集 时 ”, 某 些 工作 负载 的 IO 需 
求 可 以 明显 减少 。 更 大 的 EC2 实例 也 会 提供 更 好 的 网 络 性 能 ， 更 有 利于 EBS 卷 的 I/O。 
但 如 果 工 作 集 太 大 ， 无 法 装 入 可 用 的 最 大 实例 ， 则 WO 需求 会 逐渐 上 升 ， 并 开始 阻塞 其 
至 停止 服务 ， 正 如 我 们 之 前 讨论 的 那样 。EC2 中 内 存 最 大 的 实例 能 够 很 好 地 为 许多 工作 
负载 提供 足够 的 内 存 。 但 是 你 需要 意识 到 ， 预 热 时 间 可 能 会 很 长 ; 关于 这 一 话题 本 节 后 
面 会 有 更 多 的 讨论 。 


哪 种 类 型 的 工作 负载 无 法 通过 增加 更 多 的 内 存 来 解决 呢 ? 除了 缓存 外 ， 一 些 写 人 很 大 的 
工作 负载 需要 的 1/0 比 你 能 从 多 数 云 计 算 平 台 上 获得 的 要 多 。 例 如 ， 如 果 每 秒 执行 事务 
数 很 多 ， 那 么 每 秒 就 需要 执行 更 多 的 I/O 操作 以 保证 持久 性 。 你 只 能 从 诸如 EBS 这 样 的 
系统 中 获得 这 么 多 的 吞吐 量 。 同 样 地 ， 如 果 你 正在 将 大 量 数据 写 入 到 数据 库 中 ， 可 能 会 
超过 可 用 的 带宽 。 


你 可 能 认为 通过 RAID 来 为 EBS 卷 进行 条 带 (striping) 和 镜像 可 以 改善 VO HERE. EE 
种 程度 上 确实 有 帮助 。 问 题 是 ， 当 增加 更 多 的 EB 卷 时 ， 在 我 们 需要 某 个 EBS 卷 的 任 
意 时 间 点 都 增加 了 它 性 能 变 差 的 可 能 性 ， 而 根据 InnoDB 内 部 1/O 工作 的 方式 ， 最 差 的 
一 环 通 稼 是 整个 系统 的 瓶颈 。 实 际 上 ,我 们 已 经 尝试 过 10 和 20 个 EBS 卷 的 RAID 10 集合 ， 
20 459 RAID 比 10 卷 的 遭遇 了 更 多 的 停顿 (stall) 问题 。 当 我 们 测量 底层 块 设备 的 IO 
性 能 时 ， 很 明显 只 有 一 或 两 个 EBS 卷 表现 得 很 慢 ， 但 是 却 已 经 影响 了 整个 系统 。 


你 也 可 以 改变 应 用 和 服务 器 来 减少 IO 需求 ,考虑 周到 的 逻辑 和 物理 数据 库 设 计 (Schema 
和 索引 ) 对 于 减少 LI/O 请 求 大 有 和 帮助， 应 用 程序 优化 和 查询 优化 也 一 样 。 这 是 减少 LO 


注 9: 参阅 第 9 章 关 于 工作 集 的 定义 及 其 如 何 影响 IO 需求 的 讨论 。 
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最 有 效 的 手段 。 例 如 播 入 量 很 大 的 工作 负载 ， 明 智 地 使 用 分 区 ， 将 IO 集中 到 索引 能 完 
全 加 载 到 内 存 中 的 单个 分 区 上 ， 就 会 有 所 帮助 。 你 也 可 以 通过 设置 innodb flush Logs 
at_trx_commit=2 和 sync_bintLog=0 来 降低 持久 性 ， 或 者 将 InnoDB 事务 日 志和 二 进 制 
日 志 从 EBS 卷 中 转移 到 一 个 本 地 驱动 器 上 (尽管 这 有 风险 )。 但 是 你 从 服务 器 上 压榨 一 
点 额外 的 性 能 越 困难 ， 就 越 不 可 避免 地 要 引入 更 大 的 复杂 性 (以 及 它们 的 成 本 )。 


此 外 还 可 以 升级 MySQL 服务 器 软件 。 新 版 本 的 MySQL 和 InnoDB (最 新 的 使 用 
InnoDB Plugin 的 MySQL 5.1, 或 者 MySQL 5.5 及 更 新 的 版 本 ) 能 够 提供 更 好 的 I/O 
性 能 以 及 更 少 的 内 部 瓶颈 ， 并 且 相 比 5.1 及 之 前 的 版 本 遭受 的 停顿 和 堆积 会 少 很 多 。 
Percona Server 在 某 些 工作 负载 下 能 够 提供 更 多 的 好 处 。 例 如 ，Percona Server 的 快速 预 
热 缓 冲 池 特性 在 服务 器 重启 后 能 够 帮助 备用 服务 器 快速 运行 起 来 ， 特 别 是 1/O 性 能 不 是 
很 好 并 且 服 务 器 依赖 于 内 存 时 。 这 也 是 我 们 讨论 能 在 云 中 获得 好 的 性 能 的 候选 场景 ， 这 
里 服务 器 比 备 用 硬件 更 容易 发 生 故 障 。Percona Server 能 够 将 预 热 时 间 从 几 个 小 时 甚至 
几 天 减少 到 几 分 钟 。 在 写作 本 书 时 ， 类 似 的 预 热 特 性 在 MySQL 5.6 的 开发 里 程 碑 版 本 里 
已 经 可 用 了 。 


尽管 最 终 一 个 增长 的 应 用 总 会 达到 一 个 顶点 ， 届 时 你 不 得 不 对 数据 库 进 行 拆 分 以 保证 数 
据 能 够 存放 到 云 中 。 我 们 倾向 于 尽量 不 拆 分 ,但 如 果 你 只 有 这 么 点 马力 , 当 达 到 茶 个 氮 时 ， 
就 不 得 不 去 其 他 地 方 ( 离 开 这 个 云 )， 或 者 将 其 拆 分 为 多 份 ， 使 每 份 数据 需要 的 资源 不 
超过 虚拟 硬件 能 提供 的 。 通 常 当 工作 集 无 法 适应 内 存 大 小 时 就 得 要 进行 分 片 了 ， 这 意味 
着 在 最 大 的 EC2 实例 上 的 工作 集 大 小 为 50GB ~ 60GB. 与 之 相对 ， 我 们 已 经 有 很 多 在 
物理 硬件 上 运行 几 个 TB 大 小 级 别 数据 库 的 经 验 。 在 云 中 你 需要 更 早 进行 分 片 。 


13.5.1 在 云端 的 MySQL 基准 测试 

我 们 进行 了 一 些 基准 测试 以 说 明 MySQL 在 AWS 云 环境 中 的 性 能 。 当 需要 大 量 MO 时 要 
在 云 中 获得 始终 稳定 并 且 可 重 现 的 基准 测试 结果 几乎 是 不 可 能 的 ， 所 以 我 们 选择 一 个 内 
存 中 的 工作 负载 ,本 质 上 可 以 衡量 除了 IO 外 的 所 有 因素 。 我 们 使 用 Percona Server 5.5.16, 
缓冲 池 为 4GB， 在 一 千 万 行 数据 上 运行 标准 SysBench 只 读 基准 测试 。 这 样 就 可 以 根据 
不 同 的 实例 大 小 进行 比较 。 我 们 忽略 了 高 频率 CPU 实例 ， 因 为 它们 实际 上 比 m2. 4xlarge 
实例 的 CPU 性 能 要 差 。 我 们 还 引用 了 一 台 Cisco 服务 器 作为 参考 。Cisco 机 器 性 能 非常 
高 但 有 点 老化 了 ， 使 用 的 是 两 个 2.93GHz 的 Xeon X5670 Nehalem CPU。 每 个 CPU Æ 6 
个 核心 ， 每 个 核心 上 有 两 个 硬件 线程 ， 在 操作 系统 来 看 总 共有 24 个 CPU。 图 13-1 显示 
了 测试 的 结果 。 
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13-1: 使 用 SysBench 对 AWS 云 中 的 MySQL 进 行 只 读 基 准 测试 


根据 工作 负载 和 硬件 来 看 ， 这 样 的 结果 并 不 奇怪 。 例 如 ， 最 大 的 EC2 实例 最 高 有 8 个 线 
程 ， 因 为 它 有 8 个 CPU 核心 。( 读 / 写 工 作 负载 会 花费 一 些 CPU 之 外 的 时 间 来 做 1/0， 
所 以 我 们 能 获得 超过 8 个 线程 的 有 效 并 发 度 ) 。 图 13-1 可 能 会 让 你 认为 Cisco 的 优势 就 
是 CPU 能 力 ， 这 也 是 我 们 原本 认为 的 。 所 以 我 们 使 用 SysBench 的 质数 基准 测试 来 测试 
原始 CPU 性 能 。 结 果 如 图 13-2 所 示 。 
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图 13-2: 使 用 SysBench 对 AWS 服 务 器 进行 CPU 质数 基准 测试 


Cisco 服务 器 每 个 CPU 的 性 能 比 EC2 服务 器 要 低 ， 奇 怪 么 ?我 们 也 感到 非常 奇怪 。 质 数 
基准 测试 本 质 上 是 原始 CPU 指令 ， 因 此 不 应 该 有 非常 明显 的 虚拟 化 开销 或 者 太 多 的 内 
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存 交换 。 对 于 这 样 的 结果 我 们 的 解释 是 这 样 的 : Cisco 服务 器 的 CPU 已 经 使 用 了 很 多 年 


T, 并且 比 EC2 服务 器 的 要 慢 。 但 是 对 于 一 些 更 加 复杂 的 任务 , 例如 运行 数据 库 服 务 器 ， 
EC2 服务 器 会 受到 虚拟 化 开销 的 影响 。 区 分 慢 CPU、 慢 内 存 访问 以 及 虚拟 化 开销 并 不 总 
是 很 容易 ， 但 在 这 个 实例 中 这 种 区 别 看 起 来 很 明显 。 


13.6 MySQL 数据 库 即 服务 (DBaaS) 


在 云端 服务 器 上 安装 MySQL 并 不 是 在 云 中 使 用 MySQL 的 唯一 方法 。 已 经 有 越 来 越 
多 的 公司 开始 将 数据 库 本 身 作为 云 资源 ， 称 之 为 数据 库 即 服务 (DBaaS， 有 了 时候 也 叫 
DaaS) , 这 意味 着 你 可 以 在 一 个 地 方 使 用 云 中 的 数据 库 , 而 在 另外 的 地 方 运行 真正 的 服务 。 
虽然 我 们 在 本 章 花 很 多 时 间 解 释 了 laas, {E Iaas 市 场 正在 快速 商品 化 ， 我 们 期 望 未 来 重 
点 会 转 到 DBaaS。 在 写作 本 书 时 已 经 有 以 下 几 个 DBaaS 服务 提供 商 。 


13.6.1 Amazon RDS 


我 们 发 现在 Amazon 的 关系 数据 库 (RDS) 上 进行 的 开发 比 其 他 任何 一 个 DBaaS 提 
供 商都 要 多 很 多 。Amazon RDS 不 仅仅 是 一 个 兼容 MySQL 的 服务 ; 它 事实 上 就 是 
MySQL, 所 以 能 够 完全 兼容 你 所 拥有 的 MySQL 服务 器 二 " 并 能 作为 替代 品 提供 服务 。 我 
们 不 是 很 确定 ， 但 如 大 多 数 人 一 样 ， 我 们 相信 RDS 是 托管 在 使 用 EBS 卷 的 EC2 机 器 
上 一 一 Amazon 并 没有 公布 底层 的 技术 ,但 当 你 足够 了 解 RDS 时 ， 这 看 起 来 很 明显 就 是 
MySQL、EC2 以 及 EBS。 


系统 管理 职责 完全 由 Amazon 来 承担 。 你 没有 访问 EC2 机 器 的 权限 ; 只 有 登入 MySQL 
的 访问 凭证 。 你 可 以 创建 数据 库 、 插 入 数据 等 。 你 并 没有 被 控制 住 ， 如 果 有 和 需要， 可 以 
将 数据 导出 来 转移 到 其 他 地 方 ， 也 可 以 创建 卷 快照 并 挂 载 到 其 他 机 器 上 。 
为 了 防止 你 检查 或 干涉 Amazon 对 服务 器 或 主机 实例 的 管理 ，RDS 做 了 一 些 限制 。 例 如 
一 些 权 限 限 制 。 你 不 能 利用 SELECT INTO OUTFILE、FILE()、LOAD DATA INFILE 或 其 他 
方法 来 通过 MySQL 访问 服务 器 的 文件 系统 。 你 不 能 做 任何 和 复制 相关 的 事情 ， 也 不 能 
为 自己 赋予 更 高 的 权限 。Amazon 通过 诸如 在 系统 表 上 设置 触发 器 等 方法 来 进行 阻止 。 
并 且 作 为 服务 条 款 的 一 部 分 ， 你 要 同意 不 会 试图 绕 过 这 些 限 制 。 

安装 的 MySQL 版 本 做 了 轻微 的 修改 以 阻止 用 户 干 涉 服 务 器 ， 其 他 部 分 看 起 来 和 原版 
MySQL 一 样 。 我 们 对 RDS, EBS 和 EC2 做 了 基准 测试 ， 并 没有 从 该 平台 上 发 现 超 出 我 
们 预期 的 变化 。 也 就 是 说 ， 看 起 来 Amazon 并 没有 对 服务 器 做 任何 性 能 增强 。 

RDS 可 以 提供 一 些 比较 吸引 人 的 好 处 ， 这 取决 于 你 的 具体 情况 。 

注 10 : 除非 你 使 用 别 的 存储 引擎 或 者 其 他 -- 些 非 标准 的 MySQL 修改 版 本 。 
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。 你 可 以 将 系统 管理 甚至 许多 数据 库 管理 的 工作 贸 给 Amazon。 例 如 ， 他 们 会 为 你 进 
行 复制 并 保证 你 不 会 把 事情 搞 砸 。 

。 RDS 相 比 其 他 选择 而 言 可 能 更 便宜 ， 这 取决 于 你 的 成 本 结构 和 人 力 资源 。 

。 RDS 中 的 限制 也 许 是 件 好 事 : Amazon 拿 走 了 那 把 子弹 上 膛 的 枪 ， 防 止 你 用 它 自残 。 


但 是 ， 它 也 有 一 些 淤 在 的 缺点 。 


。 ”由 于 无 法 控制 服务 器 ， 也 就 无 法 弄 清 操作 系统 中 到 底 发 生 了 什么 。 例 如 ， 你 无 法 衡量 
IO 响应 时 间 和 CPU FIAR., Amazon 通过 另 一 个 服务 CloudWatch 提供 了 这 一 功能 。 
它 给 出 了 足够 的 指标 用 于 排查 许多 性 能 问题 ， 但 有 时 候 你 需要 原始 数据 以 知道 到 底 
发 生 了 什么 。( 也 无 法 使 用 类 似 FILE() 这 样 的 函数 来 访问 /proc/diskstats。) 

。 无 法 获得 完整 的 慢 查 询 日 志文 件 。 你 可 以 指定 MySQL 将 慢 查 询 记录 到 一 个 CSV A 
志 表 中 ， 但 这 并 不 是 很 好 。 它 会 消耗 很 多 服务 器 资源 ， 并 且 不 会 给 出 精确 的 查询 啊 
应 时 间 。 这 使 得 很 难 去 分 析 和 排除 SQL 故障 。 

。 如 果 你 希望 得 到 最 新 最 好 的 ， 或 者 一 些 性 能 上 的 增强 ， 例 如 那些 你 可 以 从 Percona 
Server 上 获得 的 提升 ， 那 就 不 走运 了 ，RDS 并 不 提供 这 些 。 

。 你 必须 依赖 Amazon 的 支持 团队 来 解决 一 些 问题 ， 而 这 些 回 题 可 能 本 来 是 你 目 己 可 
以 解决 的 。 例 如 ， 假 设 查 询 挂 起 了 ， 或 者 服务 器 由 于 数据 损坏 崩 注 了 。 你 既 可 以 等 
待 Amazon 来 解决 ， 也 可 以 自己 解决 。 如 果 是 后 者 你 就 需要 把 数据 转移 到 别 的 地 方 。 
你 无 法 通过 访问 实例 本 身 来 解决 。 如 果 想 这 么 做 ， 你 不 得 不 额外 花 一 些 时 间 并 支付 
额外 的 资源 。 这 不 只 是 理论 上 的 推测 ; 我 们 已 经 接 到 过 许多 技术 支持 请 求 ， 这 些 请 
求 通常 需要 系统 权限 以 进行 故障 排查 ， 因 此 对 于 RDS 用 户 而 言 是 无 法 真正 解决 的 。 


正如 我 们 所 说 ， 在 性 能 方面 ， RDS 跟 一 个 大 型 大 内 存 的 使 用 EBS 存储 和 原始 MySQL 
的 EC2 实例 相似 。 如 果 直 接 使 用 EC2 和 EBS 并 安装 一 个 高 性 能 版 本 的 MySQL (例如 
Percona Server) ， 你 可 以 从 AWS 云 中 压榨 出 一 点 更 高 的 性 能 ， 但 这 不 会 是 一 个 数量 级 上 
的 区 别 。 考 虑 到 这 一 点 ， 有 理由 根据 你 的 商业 需求 而 非 性 能 需求 来 决定 是 否 使 用 RDS。 
如 果 确 实 非常 要 求 高 性 能 ， 那 你 根本 就 不 应 该 使 用 AWS 云 。 


13.6.2 其 他 DBaaS 解决 方案 


Amazon RDS 并 不 是 MySQL 用 户 唯一 可 选 的 DBaaS 解决 方案 。 还 有 诸如 FathomDB 
(http://fathomdb.com) 以 及 Xeround (http://xeround.com) 等 服务 。 但 我 们 并 疫 有 足够 
的 第 一 手 经 验 来 介绍 它们 ， 因 为 我 们 还 没有 在 这 些 服务 上 做 任何 的 生产 部 署 。 从 关于 
FathomDB 的 一 些 有 限 的 公开 信息 来 看 ， 它 和 Amazon RDS 有 点 类 似 ， 虽 然 它 也 和 AWS 
云 一 样 可 以 在 Rackspace 云 上 获得 。 在 写作 本 书 时 它 还 处 于 内 部 测试 阶段 。 


Xeround 则 有 很 大 的 不 同 之 处 : 它 是 一 个 分 布 式 服务 器 集群 ， 前 端 是 一 个 包含 特定 存储 
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引擎 的 MySQL。 它 似乎 和 原始 版 本 MySQL 有 少量 的 不 兼容 或 不 同 之 处 。 但 它 只 是 最 近 
才 发 布 正式 GA 版 本 (GA, generally available) ， 所 以 现在 下 定论 为 时 尚 早 。 存 储 引 擎 
似乎 是 用 于 和 后 台 集 群 系统 通信 ， 这 看 起 来 有 点 和 NDB CLuster 类 似 。 它 增加 了 自动 重 
分 布 功 能 ， 可 以 在 工作 负载 增加 或 减少 时 自动 地 增加 和 去 除 节点 (动态 扩展 )。 


还 有 许多 其 他 的 DBaaS 服务 ， 新 的 服务 也 在 不 断 地 推出 。 我 们 这 里 所 写 的 任何 内 容 都 可 
能 在 你 阅读 时 已 经 过 时 了 ， 所 以 我 们 将 其 留 给 你 自己 来 研究 。 


13.7 AA 


FEZ in EFA MySQL 至 少 有 两 种 主流 的 方法 : 在 云 服务 器 上 安装 MySQL， 或 者 使 用 
DBaaS 服务 。MySQL 能 够 在 云 主 机 上 运行 得 很 好 ， 但 云 环境 中 的 限制 常常 会 导致 更 早 
需要 进行 数据 拆 分 。 并 且 尽 管 云 服务 器 看 起 来 和 你 的 物理 硬件 很 相似 ， 但 可 能 性 能 和 服 
务 质量 要 更 低 。 


有 时 候 似 乎 有 人 会 说 “ 云 就 是 答案 ， 有 什么 回 题 吗 ? ”这 是 一 个 极端 ， 但 那些 认为 云 是 
一 个 银 弹 的 狂热 信众 ， 也 有 类 似 的 问题 。 数 据 库 所 需要 的 四 种 基础 资源 中 的 三 种 《CPU、 
内 存 和 磁盘 ) 在 云 中 明显 更 差 并 且 / 或 者 效率 更 低 ， 会 直接 影响 到 MySQL 的 性 能 。 


但 是 对 于 很 多 工作 负载 而 言 ， MySQL 能 够 在 云 中 运行 得 很 好 。 通 党 来 说 ， 如 果 能 将 工 
作 集 加 载 到 内 存 中 ， 并 且 产 生 的 写 入 负载 不 超过 云 能 支撑 的 IO 量 ， 那 么 就 可 以 获得 很 
好 的 效果 。 通 过 严谨 的 设计 和 架构 ， 选 择 正 确 的 MySQL 版 本 并 做 合适 的 配置 ， 可 以 使 
你 的 数据 库 工作 负载 和 容量 能 适应 云 的 长 处 。 但 是 MySQL 并 不 是 天 生 的 云 数据 库 ; 也 
就 是 说 ， 它 无 法 完全 使 用 云 计 算 理论 上 能 提供 的 优点 ， 例 如 自动 扩展 。 但 是 一 些 可 替代 
的 技术 (例如 Xeround) 正在 尝试 解决 这 些 缺 后 。 


我 们 已 经 讨论 了 很 多 跟 云 相关 的 缺点 ， 这 也 许 会 给 你 一 个 我 们 反对 云 计算 的 印象 。 并 非 
如 此 。 这 只 是 因为 我 们 只 集中 在 MySQL 上 ,而 不 是 讨论 云 计 算 所 有 的 优 上 后， 这 可 能 跟 
你 从 其 他 地 方 阅 读 到 的 非常 不 一 样 。 我 们 在 试 着 指出 在 云端 运行 MySQL 有 哪些 不 同 ， 
以 及 哪些 是 你 需要 知道 的 。 | 


我 们 看 到 在 云 中 最 大 的 成 功 是 由 于 商业 原因 做 出 的 决策 。 即 使 长 期 来 看 每 个 商业 交易 的 
开销 在 云 中 会 更 高 ， 但 其 他 方面 的 因素 ， 诸 如 增加 了 弹性 、 减 少 了 前 期 成 本 、 减 少 了 推 
向 市 场 的 时 间 ， 以 及 降低 了 风险 ， 这 可 能 更 重要 。 并 且 你 的 应 用 中 其 他 和 MySQL 无 关 
的 部 分 所 获得 的 好 处 要 远 远 大 于 (在 云端 ) 使 用 MySQL 带 来 的 弊端 。 
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如 果 在 提高 MySQL 的 性 能 上 花费 太 多 时 间 ， 容 易 使 视野 局 限于 MySQL 本 身 ， 而 忽略 
了 用 户 体验 。 回 过 头 来 看 ， 也 许可 以 意识 到 ,或许 MySQL 已 经 足够 优化 ， 对 于 用 户 
看 到 的 响应 时 间 而 言 ， 其 所 占 的 比重 已 经 非常 之 小 ， 此 时 应 该 关注 下 其 他 部 分 了 。 这 
是 个 很 不 错 的 观点 ， 尤 其 是 对 DBA 而 言 ， 这 是 很 值得 去 做 的 正确 的 事 。 但 如 果 不 是 
MySQL， 那 又 是 什么 导致 了 问题 呢 ? 使 用 第 3 章 提 到 的 技术 ， 通 过 测量 可 以 快速 而 准确 
地 给 出 答案 。 如 果 能 顺 着 应 用 的 逻辑 过 程 从 头 到 尾 来 剖析 ， 那 么 找到 问题 的 源头 一 般 来 
说 并 不 困难 。 有 了 时， 尽管 问题 在 MySQL 上 ， 也 很 容易 在 系统 的 另 一 部 分 得 到 解决 。 


无 论 问题 出 在 哪里 ， 都 至 少 可 以 找到 一 个 靠 谱 的 工具 来 帮助 进行 分 析 ， 而 且 通 和 党 是 免 
费 的 。 例 如 ， 如 果 有 JavaScript 或 者 页 面 演 染 的 问题 ， 可 以 使 用 包括 Firefox 浏览 器 的 
Firebug 插件 在 内 的 调 优 工具 ， 或 者 使 用 Yahoo! 的 YSlow 工具 。 我 们 在 第 3 BEB TIL 
个 应 用 层 工具 。 一 些 工具 甚至 可 以 剖析 整个 堆栈 : New Relic 是 一 个 很 好 的 例子 ， 它 可 
以 剖析 Web 应 用 的 前 端 、 应 用 以 及 后 疹 。 


14.1 第 见 问题 

我 们 在 应 用 中 反复 看 到 一 些 相同 的 问题 ， 经 常 是 因为 人 们 使 用 了 缺乏 设计 的 现成 系统 或 
者 简单 开发 的 流行 框架 。 虽 然 有 时 候 可 以 通过 这 些 框架 更 快 更 简单 地 构建 系统 ， 但 是 如 
果 不 清 楚 这 些 框架 背后 做 了 什么 操作 ， 反 而 会 增加 系统 的 风险 。 


下 面 是 我 们 经 常会 碰 到 的 问题 清单 ， 通 过 这 些 过 程 可 以 激发 你 的 思维 。 


。 什么 东西 在 消耗 系统 中 每 台 主 机 的 CPU、 磁 盘 、 网 络 ， 以 及 内 存 资源 ?这 些 值 是 否 
合理 ?如 果 不 合理 ， 对 应 用 程序 做 基本 的 检查 ， 看 什么 占用 了 资源 。 配 置 文件 通常 
是 解决 问题 最 简单 的 方式 。 例 如 ， 如 果 Apache 因为 创建 1000 个 需要 50MB 内 存 的 
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工作 进程 而 导致 内 存 溢出 ， 就 可 以 配置 应 用 程序 少 使 用 一 些 Apache 工作 进程 。 也 
可 以 配置 每 个 进程 少 使 用 一 些 内 存 。 

应 用 真 的 需要 所 有 获取 到 的 数据 吗 ? 获取 1000 行 数据 但 只 显示 10 行 ， 而 丢弃 剩 下 
的 990 行 ， 这 是 常见 的 错误 。( 如 果 应 用 程序 缓存 了 另外 的 990 行 备 用 ， 这 也 许 是 有 
意 的 优化 。) 

应 用 在 处 理 本 应 由 数据 库 处 理 的 事情 吗 ， 或 者 反 过 来 ? 这 里 有 两 个 例子 ， 从 表 中 获 


取 所 有 的 行 在 应 用 中 进行 统计 计数 ， 或 者 在 数据 库 中 执行 复杂 的 字符 串 操 作 。 数 据 
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库 擅 长 统计 计数 ， 而 应 用 擅长 正则 表达 式 。 要 善于 使 用 正确 的 工具 来 完成 任务 。 

应 用 执行 了 太 多 的 查询 ? ORM 宣称 的 把 程序 员 从 写 SQL 中 解放 出 来 的 语句 接口 通 
常 是 罪魁 祸首 。 数 据 库 服务 器 为 从 多 个 表 匹 配 数据 做 了 很 多 优化 ， 因 此 应 用 程序 完 
全 可 以 删 掉 多 余 的 和 谍 套 循环 ， 而 使 用 数据 库 的 关联 来 代替 。 

应 用 执行 的 查询 太 少 了 ? 好 吧 ， 上 面 只 说 了 执行 太 多 SQL 可 能 成 为 问题 。 但 是 ， 有 
时 候 让 应 用 来 做 “手工 关联 ”以 及 类 似 的 操作 也 可 能 是 个 好 主意 。 因 为 它们 允许 更 
细 的 粒度 控制 和 更 有 效 的 使 用 缓存 ， 以 及 更 少 的 锁 争 用 ， 甚 至 有 时 应 用 代码 里 模拟 
的 哈 希 关 联 会 更 快 (MySQL 的 仍 套 循环 的 关联 方法 并 不 总 是 高 效 的 )。 

应 用 创建 了 没 必 要 的 MySQL 连接 吗 ? 如 果 可 以 从 缓存 中 获得 数据 ， 就 不 要 再 连接 
数据 库 。 

应 用 对 一 个 MySQL 实例 创建 连接 的 次 数 太 多 了 吗 (也 许 因 为 应 用 的 不 同 部 分 打开 
了 它们 自己 的 连接 ) ? 通常 来 说 更 好 的 办 法 是 重用 相同 的 连接 。 

应 用 做 了 太 多 的 “垃圾 ”查询 ? 一 个 常见 的 例子 是 发 送 查 询 前 先 发 送 一 个 ping 命令 
看 数据 库 是 否 存活 ， 或 者 每 次 执行 SQL 前 选择 需要 的 数据 库 。 总 是 连接 到 一 个 特 
定 的 数据 库 并 使 用 完整 的 表 名 也 许 是 更 好 的 方法 。( 这 也 使 得 从 日 志 或 者 通过 SHOW 
PROCESSLIST 看 SQL 更 容易 了 ， 因 为 执行 日 志 中 的 SQL 语句 的 时 候 不 用 再 切换 到 特 
定 的 数据 库 ， 数 据 库 名 已 经 包含 在 SQL 语句 中 了 。)“ 预 备 (Preparing) ”连接 是 另 
一 个 常见 问题 。Java 驱动 在 预备 期 间 会 做 大 量 的 操作 ， 其 中 大 部 分 可 以 禁用 。 另 一 
个 常见 的 垃圾 查询 是 SET NAMES UTF8， 这 是 一 个 错误 的 方法 ( 它 不 会 改变 客户 端 库 
的 字符 集 , 只 会 影响 服务 器 的 设置 )。 如 果 应 用 在 大 部 分 情况 使 用 特定 的 字符 集 工作 ， 
可 以 修改 配置 文件 把 特定 字符 集 设 为 默认 值 ， 而 不 需要 在 每 次 执行 时 去 做 修改 。 

应 用 使 用 了 连接 池 吗 ?这 既 可 能 是 好 事 ， 也 可 能 是 坏事 。 连 接 池 可 以 帮助 限制 总 的 
连接 数 ， 有 大 量 SQL 执行 的 时 候 效 果 不 错 (Ajax 应 用 是 一 个 典型 的 例子 )。 然 而 ， 
连接 池 也 可 能 有 一 些 副 作用 ， 比 如 说 应 用 的 事务 、 临 时 表 、 连 接 相 关 的 配置 项 ， 以 
及 用 户 自 定义 变量 之 间 相 互 干扰 等 。 | 

应 用 是 否 使 用 长 连接 ? 这 可 能 导致 太 多 连接 。 通 常 来 说 长 连接 不 是 个 好 主意 ， 除 
非 网 络 环境 很 慢 导 致 创建 连接 的 开销 很 大 ， 或 者 连接 只 被 一 或 两 个 很 快 的 SQL 使 
用 ， 或 者 连接 频率 很 高 导致 客户 端 本 地 端口 不 够 用 。 如 果 MySQL 的 配置 正确 ， 也 


| “第 14 章 应 用 层 优化 


许 就 不 需要 长 连接 了 。 比 如 使 用 skip-name- resoLve 来 避免 DNS 反 向 查询 ， 确 保 
thread_cache 足 够 大 ,并 且 增 加 back_Log。 可 以 参考 第 8 章 和 第 9 章 得 到 更 多 的 细节 。 

。 应 用 是 否 在 不 使 用 的 时 候 还 保持 连接 打开 ?如果 是 这 样 ， 尤 其 是 连接 到 很 多 服务 器 
时 ， 可 能 会 过 多 地 消耗 其 他 进程 所 需要 的 连接 。 例 如 ， 假 设 你 连接 到 10 + MySQL 
服务 器 。 从 一 个 Apache 进程 中 获取 10 个 连接 不 是 问题 ， 但 是 任意 时 刻 其 中 只 有 1 
个 在 真正 工作 。 其 他 9 个 大 部 分 时 间 都 处 于 Sleep RE. 如果 其 中 一 台 服 务 器 变 慢 了 ， 
或 者 有 一 个 很 长 的 网 络 请 求 ， 其 他 的 服务 器 就 可 能 因为 连接 数 过 多 受到 影响 。 解 决 
方案 是 控制 应 用 怎么 使 用 连接 。 例 如 ， 可 以 将 操作 批量 地 依次 发 送 到 每 个 MySQL 
实例 , 并 且 在 下 一 次 执行 SQL 前 关闭 每 个 连接 。 如 果 执 行 的 是 比较 消耗 时 间 的 操作 ， 
例如 调用 Web 服务 接口 ， 甚 至 可 以 先 关 闭 MySQL 连接 ， 执 行 耗 时 的 工作 ， 再 重新 
打开 MySQL 连接 继续 在 数据 库 上 工作 。 


长 连接 和 连接 凶 的 区 别 可 能 使 人 困惑 。 长 连接 可 能 跟 连 接地 有 同样 的 副作用 ， 因 为 重用 
的 连接 在 这 两 种 情况 下 都 是 有 状态 的 。 


然而 ， 连 接 池 通常 不 会 导致 服务 器 连接 过 多 ， 因 为 它们 会 在 进程 间 排队 和 共享 连接 。 另 
一 方面 ， 长 连接 是 在 每 个 进程 基础 上 创建 ， 不 会 在 进程 闻 共 享 。 


连接 地 也 比 共享 连接 的 方式 对 连接 策略 有 更 强 的 控制 力 。 连接 凶 可 以 配置 为 自动 扩展 ， 
但 是 通常 的 实践 经 验 是 ， 当 遇 到 连接 池 完 全 占 满 时 ， 应 该 将 连接 请 求 进行 排 队 而 不 是 扩 
展 连接 池 。 这 样 做 可 以 在 应 用 服务 器 上 进行 排队 等 待 ， 而 不 是 将 压力 传递 到 MySQL 数 
据 库 服务 器 上 导致 连接 数 太 多 而 过 载 。 


有 很 多 方法 可 以 使 得 查询 和 连接 更 快 ， 但 是 一 般 的 规则 是 ， 如 果 能 够 直接 避免 进行 查询 
和 连接 ， 肯 定 比 努力 提升 查询 和 连接 的 性 能 能 获得 更 好 的 优化 结果 。 


14.2 Web 服务 器 问题 


Apache 是 最 流行 的 Web 应 用 服务 器 软件 。 它 在 许多 情况 下 都 运行 良好 ， 但 如 果 使 用 不 
当 也 会 消耗 大 量 的 资源 。 最 常见 的 问题 是 保持 它 的 进程 的 存活 (alive) 时 间 过 长 ， 或 者 
在 各 种 不 同 的 用 途 下 混合 使 用 ， 而 不 是 分 别 对 不 同类 型 的 工作 进行 优化 。 


Apache 通常 是 通过 prefork 配置 来 使 用 mod php、mod perl 和 mod_python 模块 的 。 
prefork 模式 会 为 每 个 请 求 预 分 配 进程 。 因 为 PHP、Perl 和 Python 脚本 是 可 以 定制 化 的 ， 
每 个 进程 使 用 50MB 或 100MB 内 存 的 情况 并 不 少见 。 当 一 个 请 求 完成 后 ， 会 释放 大 部 
分 内 存 给 操作 系统 ， 但 并 不 是 全 部 。Apache 会 保持 进程 处 于 打开 状态 以 备 后 来 的 请 求 重 
用 。 这 意味 着 ， 如 果 下 一 个 请 求 是 请 求 静 态 文件 ， 比 如 一 个 CSS 文件 或 者 一 张 图 片 ， 就 
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会 出 现 用 一 个 占用 内 存 很 多 的 进程 来 为 一 个 很 小 的 请 求 服务 的 情况 。 这 就 是 使 用 Apache 
作为 通用 Web 服务 器 很 危险 的 原因 。 它 的 确 是 为 通用 目的 而 设计 的 ， 但 如 采 能 够 有 和 针对 
性 地 使 用 其 长 处 ， 会 获得 更 好 的 性 能 。 


另 一 个 主要 的 问题 是 ， 如 果 开 启 了 Keep-Alive 设置 ， 进 程 可 能 很 长 时 间 处 于 繁忙 状态 。 
当然 ， 即 使 没有 开启 Keep-Alive， 某 些 进程 也 可 能 存活 很 入 ,，“ 填 鸭 式 ”地 将 内 容 传 给 
客户 端 可 能 导致 获取 数据 很 慢 ”'。 


人 们 常 犯 的 另外 一 个 错误 ， 就 是 保持 那些 Apache 默认 开启 的 模块 不 动 。 


最 好 能 够 精简 Apache 的 模块 ， 移 除 掉 那 些 不 需要 的 。 这 很 简单 : 只 需要 检查 Apache 的 
配置 文件 ， 注 释 掉 不 想 要 的 模块 ， 然 后 重启 Apache 就 行 。 也 可 以 在 php.ini 文件 中 删除 
不 使 用 的 PHP 模块 。 


最 差 情况 是 ， 如 果 用 一 个 通用 目的 的 Apache 配置 直接 用 于 Web 服务 ， 最 后 很 可 能 产生 
很 多 重量 级 的 Apache 进程 。 这 将 浪费 Web 服务 器 的 资源 。 它 们 还 可 能 保持 大 量 MySQL 
连接 ， 浪 费 MySQL 的 资源 。 下 面 是 一 些 可 以 降低 服务 器 负载 的 方法 二 ?。 


不 要 使 用 Apache 来 做 静态 内 容 服 务 ， 或 者 至 少 和 动态 服务 使 用 不 同 的 Apache 实例 。 流 
行 的 奉 代 品 有 Nginx (http://www.nginx.com) FM lighttpd (http://www.lighttpd.net) . 


© 使 用 缓存 代理 服务 器 , 比如 Squid 或 者 Varnish, 防止 所 有 的 请 求 都 到 达 Web 服务 器 。 
这 个 层面 即使 不 能 缓存 所 有 页 面 ， 也 可 以 缓存 大 部 分 页 面 ， 并 且 使 用 像 ESI (Edge 
Side Includes， 参 见 http://www.esi.org) 这 样 的 技术 来 将 部 分 页 面 中 的 小 块 的 动态 内 
容 媒 入 到 静态 缓存 部 分 。 

© 对 动态 和 静态 资源 都 设置 过 期 策略 。 可 以 使 用 Squid 这 样 的 缓存 代理 显 式 地 使 内 容 
过 期 。 维 基 百 科 就 使 用 了 这 个 技术 来 清理 缓存 中 变更 过 的 文章 。 


有 时 也 许 还 需要 修改 应 用 程序 ， 以 便 得 到 更 长 的 过 期 时 间 。 例 如 ， 如 果 你 告诉 浏览 器 永 
久 缓存 CSS 和 JavaScript 文件 ， 然 后 对 站 点 的 HTML 做 了 一 个 修改 ， 这 个 页 面 演 染 将 会 
出 间 题 。 这 种 情况 可 以 为 文件 的 每 个 版 本 设 定 唯一 的 文件 名 。 例 如 ， 你 可 以 定制 网 站 的 
发 布 脚本 ， 复 制 CSS 文件 到 /css/123 frontpage.css， 这 里 的 123 就 是 版 本 管理 器 中 的 版 
本 号 。 对 图 片 文件 的 文件 名 也 可 以 这 么 做 一 一 永 不 重用 文件 名 ， 这 样 页 面 就 不 会 在 升级 
时 出 问题 ， 浏 览 器 缓存 多 久 的 文件 都 没 问 题 。 


21: 填 鸭 式 抓 取 发 生 在 当 一 个 客户 广发 起 HTTP 请 求 ， 但 是 没有 迅速 获取 结果 时 。 直 到 客户 彤 获取 整 
个 结果 ，HTTP 连接 一 一 以 及 处 理 的 Apache 进程 一 一 宛 将 保持 活跃 。 

注 2: 有 一 本 关于 如 何 优化 Web 应 用 的 很 不 错 的 书 一 一 High Performance Web Sites ， 作 者 是 Steve Souders 
(O’Reilly)。 尽 管 书 中 大 部 分 内 容 是 从 客户 的 角度 来 看 如 何 让 Web 站 点 运行 更 快 ， 但 是 参考 他 的 建 
议 也 有 利于 你 的 服务 器 。Steve 后 续 的 一 本 书 Even Faster Web Sites 也 很 不 锚 ， 值 得 阅读 。 
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。 不 要 让 Apache 填 鸭 式 地 服务 客户 端 ， 这 不 仅仅 会 导致 慢 ， 也 会 导致 DDoS 攻击 变 
得 简单 。 硬 件 负 载 均 衡器 通常 可 以 做 缓冲 ， 所 以 Apache 可 以 快速 地 完成 ， 让 负载 
均衡 器 通过 缓存 响应 客户 端的 请 求 ， 也 可 以 在 应 用 服务 器 前 端 使 用 Nginx、Squid 或 
者 事件 驱动 模式 下 的 Apache, 

。 FIF gzip 压缩 。 对 于 现在 的 CPU 而 言 这 样 做 的 代价 很 小 ,但 是 可 以 节省 大 部 分 流量 。 
如 果 想 节省 CPU 周期 ， 可 以 使 用 缓存 ， 或 者 诸如 Nginx 这 样 的 轻 量 级 服务 器 保存 压 
缩 过 的 页 面 版 本 。 l 

© 不 要 为 用 于 长 距离 连接 的 Apache 配置 启用 Keep-Alive 选项 ， 因 为 这 会 使 得 重量 级 
的 Apache 进程 存活 很 长 时 间 。 可 以 用 服务 器 端的 代理 来 处 理 保 持 连接 的 工作 ， 从 
而 防止 Apache 被 客户 端 拖 垮 。 配 置 Apache 到 代理 之 间 的 连接 使 用 Keep-Alive 是 可 
以 的 ， 因 为 代理 只 会 使 用 很 少 的 Apache 连接 去 获取 数据 。 图 14-1 展示 了 这 个 区 别 。 


YS, 


Keep-Alive 连接 


Se: 


Apache 工作 进程 


wo 
Keep-Alive 连接 


oe 
a 
ce RA 
YS. 
$ 


Apache 工作 进程 





14-1: 代理 可 以 使 Apache 不 被 长 连接 拖 垮 ， 产 生 更 少 的 Apache 工 作 进 程 。 


这 些 策略 可 以 使 Apache 进程 存活 时 间 变 得 很 得， 所 以 会 有 比 实际 需求 更 多 的 进程 。 无 
论 如 何 ， 有 些 操作 依然 可 能 导致 Apache 进程 存活 时 间 太 长 ， 并 且 占 用 大 量 资源 。 举 个 
例子 ， 一 个 请 求 查询 延 时 非常 大 的 外 部 资源 ， 例 如 远程 的 Web 服务 ， 就 会 出 现 Apache 
进程 存活 时 间 太 长 的 问题 。 这 种 问题 通常 是 无 解 的 。 


14.2.1 寻找 最 优 并 发 度 


每 个 Web 服务 器 都 有 一 个 最 佳 并 发 度 一 一 就 是 说 ， 让 进程 处 理 请 求 尽 可 能 快 ， 并 且 不 超 
过 系统 负载 的 最 优 的 并 发 连接 数 。 这 就 是 我 们 在 第 11 章 说 的 最 大 系统 容量 。 进 行 一 个 简 
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单 的 测量 和 建 模 ， 或 者 只 是 反复 试验 ， 就 可 以 找到 这 个 “神奇 的 数 ”"， 为 此 花 一 些 时 间 
是 值得 的 。 - 


对 于 大 流量 的 网 站 ，Web 服务 器 同一 时 刻 处 理 上 千 个 连接 是 很 常见 的 。 然 而 ， 只 有 一 小 
部 分 连接 需要 进程 实时 处 理 。 其 他 的 可 能 是 读 请 求 ， 处 理 文件 上 传 ， 填 鸭 式 服务 内 容 ， 
或 者 只 是 等 待 客户 端的 下 一 步 请 求 。 


随 着 并 发 的 增加 ， 服 务 器 会 逐 新 到 达 它 的 最 大 吞吐 量 。 在 这 之 后 ， 吞 吐 量 通常 开始 降低 。 
更 重要 的 是 ， 响 应 时 间 GER) 也 会 因为 排队 而 开始 增加 。 


为 什么 会 这 样 呢 ? 试想 ， 如 果 服 务 器 只 有 一 个 CPU， 同 时 接收 到 了 100 个 请 求 ， 会 发 生 
什么 事情 呢 ? 假设 CPU 每 秒 能 够 处 理 一 个 请 求 。 即 便 理想 情况 下 操作 系统 没有 调度 的 开 
销 ， 也 没有 上 下 文 切换 的 成 本 ， 那 100 个 请 求 也 需要 CPU 花费 整整 100s 才能 完成 。 


处 理 请 求 的 最 好 方法 是 什么 ?可 以 将 其 一 个 个 地 排 到 队列 中 ， 也 可 以 并 行 地 执行 并 在 不 
同 请 求 之 间 切 换 ， 每 次 切换 都 给 每 个 请 求 相 同 的 服务 时 间 。 在 这 两 种 情况 下 ， 吞 吐 量 都 
是 每 秒 处 理 一 个 请 求 。 然 而 ， 如 果 使 用 队列 (并 发 =1)， 平 均 延 时 是 S0s， 如 果 是 并 发 
执行 (并 发 =100) 则 是 100s。 在 实践 中 ， 并 发 执行 会 使 平均 延 时 更 高 ， 主 要 是 因为 上 
下 文 切换 的 代价 。 


对 于 CPU 密集 型 工作 负载 ， 节 佳 并 发 度 等 于 CPU 数量 (或 者 CPU 核 数 ) 。 然 而 ， 进 程 
并 不 总 是 处 于 可 运行 状态 的 ， 因 为 会 有 一 些 阻 塞 式 请 求 ， 例 如 MO、 数据 库 查 询 ， 以 及 
网 络 请 求 。 因 此 ， 最 佳 并 发 度 通常 会 比 CPU 数量 高 一 些 。 


可 以 预测 最 优 并 发 度 ， 但 是 这 需要 精确 的 分 析 。 尝 试 不 同 的 并 发 值 ， 看 看 在 不 增加 响应 
时 间 的 情况 下 的 最 大 吞吐 量 是 多 少 ， 或 者 测量 真正 的 工作 负载 并 且 进 行 分 析 ， 这 通常 更 
容易 。Percona Toolkit 的 pt-tcp-model 工具 可 以 帮助 从 TCP 转 储 中 测量 和 建 模 分 析 系 统 
的 可 扩展 性 和 性 能 特性 。 


14.3 缓存 


缓存 对 高 负载 应 用 来 说 是 至 关 重 要 的 。 一 个 典型 的 Web 应 用 程序 会 提供 大 量 的 内 容 ， 直 
接生 成 这 些 内 容 的 成 本 比 采 用 缓存 要 高 得 多 〈 包 含 检查 和 缓存 超时 的 开销 )， 所 以 采用 
缓存 通常 可 以 获得 数量 级 的 性 能 提升 。 诀 穷 是 找到 正确 的 粒度 和 缓存 过 期 策略 组 合 。 另 
外 也 需要 决定 哪些 内 容 适 合 缓存 ， 绥 存在 哪里 。 


典型 的 高 负载 应 用 会 有 很 多 层 缓存 。 缓 存 并 不 仅仅 发 生 在 服务 器 上 , 而 是 在 每 一 个 环节 ， 
甚至 包括 用 户 的 Web 浏览 器 (这 就 是 内 容 过 期 头 的 用 处 )。 通 常 ， 缓 存 越 接近 客户 端 ， 
就 越 节 省 资源 并 且 效 率 更 高 。 从 浏览 器 缓存 提供 一 张 图 片 比 从 Web 服务 器 的 内 存 获取 快 
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得 多 ， 而 从 服务 器 的 内 存 读 取 又 比 从 服务 器 的 磁盘 上 读 取 好 得 多 。 每 种 类 型 的 缓存 有 其 
不 一 样 的 特点 ， 例 如 容量 和 延 时 ， 在 后 面 的 章节 我 们 会 解释 其 中 的 一 部 分 。 


可 以 把 缓存 分 成 两 大 类 : 被 动 缓存 和 主动 缓存 。 被 动 缓存 除了 存储 和 返回 数据 外 不 做 任 
何事 情 。 当 从 被 动 缓存 请 求 一 些 内 容 时 ， 要 么 可 以 得 到 结果 ， 要 么 得 到 “结果 不 存在 ”。 
被 动 缓存 的 一 个 典型 例子 是 memcached. 


相 比 之 下 ， 主 动 缓存 会 在 访问 未 命中 时 做 一 些 额外 的 工作 。 通 常会 将 请 求 转 发 送 给 应 用 
的 其 他 部 分 来 生成 请 求 结果 ， 然 后 存储 该 结果 并 返回 给 应 用 。Squid 缓存 代理 服务 器 就 
是 一 个 主动 缓存 。 


设计 应 用 程序 时 ， 通 常 希望 缓存 是 主动 的 《也 可 以 叫做 透明 的 ) ， 因 为 它们 对 应 用 隐藏 
了 检查 一 生成 一 存储 这 个 逻辑 过 程 。 也 可 以 在 被 动 缓存 的 前 面 构建 一 个 主动 缓存 。 


14.3.1 应 用 层 以 下 的 缓存 
MySQL 服务 器 有 自己 的 内 部 缓存 ， 但 也 可 以 构建 你 自己 的 缓存 和 汇总 表 。 可 以 对 缓存 
表 量 身 定制 ,使 它们 最 有 效 地 过 滤 、 排 序 、 与 其 他 表 关 联 、 计 数 ， 或 者 用 于 其 他 用 途 。 
缓存 表 也 比 许多 应 用 层 缓 存 更 持久 ， 因 为 在 服务 器 重启 后 它们 还 存在 。 


在 第 4 章 和 第 5 章 已 经 介绍 了 关于 缓存 策略 的 内 容 ， 所 以 在 这 一 章 ， 我 们 主要 关注 应 用 
层 以 及 更 高 层次 的 缓存 。 


缓存 并 不 总 是 有 用 


必须 确认 缓存 真 的 可 以 提升 性 能 ， 因 为 有 时 缓存 可 能 没有 任何 帮助 。 例 如 ， 在 实践 
F RILA Nginx 的 内 存 中 获取 内 容 比 从 缓存 代理 中 获取 要 快 。 如 果 代 理 的 缓存 在 磁 
瘟 上 则 尤其 如 此 。 


原因 很 简单 : 缓存 自身 也 有 一 些 开 销 。 比 如 检查 缓存 是 否 存 在 ， 如 果 命 中 则 直接 从 


RAPED., BIPGRAM RAARAA GAR HRA EMA AA, BAR 
在 这 些 开 销 比 没有 缓存 的 情况 下 生成 和 提供 数据 的 开销 少时 才 有 用 。 


如 果 知 道 所 有 这 些 操作 的 开销 ， 就 可 以 计算 出 缓存 能 提供 多 少 帮 助 。 没 有 缓存 时 的 开 
销 就 是 为 每 个 请 求生 成 数据 的 开销 。 有 缓存 时 的 开销 是 检查 缓存 的 开销 加 上 缓存 不 命 
中 的 概 牵 乘 以 生成 数据 的 开销 ， 再 加 上 缓存 命中 的 概率 乘 以 缓存 提供 数据 的 开销 。 
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如 果 有 缓存 时 的 开销 比 没有 时 要 低 ， 则 说 明 缓 存 可 能 有 用 ， 但 依然 不 能 保证 。 还 要 


记 住 ， 就 像 从 Nginx 的 内 存 中 获取 数据 比 从 代理 在 磁盘 中 的 线 存 获取 要 好 一 样 ， 有 
些 缓存 的 开销 比 另 外 一 些 要 佐 。 





14.3.2 应 用 层 缓存 


应 用 层 缓存 通常 在 同一 台 机 器 的 内 存 中 存储 数据 ， 或 者 通过 网 络 存在 另 一 台 机 器 的 内 存 
中 。 


因为 应 用 可 以 缓存 部 分 计算 结果 ， 所 以 应 用 层 缓存 可 能 比 更 低层 次 的 缓存 更 有 效 。 因 此 ， 
应 用 层 缓存 可 以 节省 两 方面 的 工作 : 获取 数据 以 及 基于 这 些 数据 进行 计算 。 一 个 很 好 的 
例子 是 HTML 文本 块 。 应 用 程序 可 以 生成 例如 头条 新 闻 的 标题 这 样 的 HTML 片段 ， 并 
且 做 好 缓存 。 后 续 的 页 面 视图 就 可 以 简单 地 插入 这 个 缓存 过 的 文本 。 一 般 来 说 ， 在 缓存 
数据 前 对 数据 做 的 处 理 越 多 ， 缓 冲 命 中 节省 的 工作 就 越 多 。 


但 应 用 层 缓存 也 有 缺点 ， 那 就 是 缓存 命中 率 可 能 更 低 ， 并 且 可 能 使 用 较 多 的 内 存 。 假 设 
需要 50 个 不 同 版 本 的 头条 新 闻 标 题 ， 以 使 不 同 地 区 生活 的 用 户 看 到 不 同 的 内 容 ， 那 就 
需要 足够 的 内 存 去 存储 全 部 50 个 版 本 ， 任 何 给 定 版 本 的 标题 命中 次 数 都 会 更 少 ， 并 且 
失效 策略 也 会 更 加 复杂 。 


应 用 缓存 有 许多 种 ， 下 面 是 其 中 的 一 小 部 分 。 


本 地 缓存 

这 种 缓存 通常 很 小 ， 只 在 进程 处 理 请 求 期 间 存在 于 进程 内 存 中 。 本 地 缓存 可 以 有 效 
地 避免 对 某 些 资源 的 重复 请 求 。 这 种 类 型 的 缓存 技术 并 不 复杂 : 通常 只 是 应 用 代码 
中 的 一 个 变量 或 者 哈 希 表 。 例 如 ， 假 设 需要 显示 一 个 用 户 名 ， 而且 已 经 知道 其 ID， 
就 可 以 创建 一 个 get_name_from_id() 函数 并 且 在 其 中 增加 缓存 ， 像 下 面 这 样 。 

<?php 

function get name from id($user id) { 

static $name; // static makes the variable persist 


if ( !$name ) { 
// Fetch name from database 


return $name; 


?> 


如 果 使 用 的 是 Perl， 那 么 Memoize 模块 是 函数 调用 结果 标准 的 缓存 方式 。 
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use Memoize qw(memoize) ; 

memoize ‘get name from id ; 

sub get name from id { 
my ( $user id )=@; 
my $name = # get name from database 
return $name; 


这 些 技巧 都 很 简单 ， 但 却 可 以 为 应 用 程序 节省 很 多 工作 。 

本 地 共享 内 存 缓存 
这 种 缓存 一 般 是 中 等 大 小 ( 几 个 GB)， 快速 ， 难 以 在 多 台 机 器 间 同 步 。 它 们 对 小 型 
的 半 静 态 位 数据 比较 合适 。 例 如 每 个 州 的 城市 列表 ， 分 片 数据 存储 的 分 区 函数 (k 
射 表 ) ， 或 者 使 用 存活 时 间 (TTL) 策略 进行 失效 的 数据 等 。 共 享 内 存 最 大 的 好 处 是 
访问 非常 快 一 一 通常 比 其 他 任何 远程 缓存 访问 都 要 快 不 少 。 

分 布 式 内 存 缓存 
最 常见 的 分 布 式 内 存 缓存 的 例子 是 memcached。 分 布 式 缓存 比 本 地 共享 内 存 缓存 要 
大 得 多 ， 增 长 也 容易 。 缓 存 中 创建 的 数据 的 每 一 个 比特 都 只 有 一 份 副本 ， 这 样 既 不 
会 浪费 内 存 ， 也 不 会 因为 相同 的 数据 存在 不 同 的 地 方 而 引入 一 致 性 问题 。 分 布 式 内 
存 非常 适合 存储 共享 对 象 ， 例 如 用 户 资料 、 评 论 ， 以 及 HTML 片段 。 
分 布 式 缓存 比 本 地 共享 缓存 的 延 时 要 高 得 多 ， 所 以 最 高 效 的 使 用 方法 是 批量 进行 多 
个 获取 操作 〈 例 如 ， 在 一 次 循环 中 获取 多 个 对 象 ) 。 分 布 式 缓存 还 需要 考虑 怎么 增加 
更 多 的 节点 ， 以 及 某 个 节点 崩溃 了 怎么 处 理 。 对 于 这 两 个 场景 ， 应 用 程序 必须 决定 
在 节点 间 怎 么 分 布 或 重 分 布 缓存 对 象 。 当 缓存 集群 增加 或 减少 一 台 服 务 器 时 ， 一 致 
性 缓存 对 避免 性 能 问题 而 言 是 非常 重要 的 。 在 下 面 这 个 网 站 有 一 个 为 memcached 做 
的 一 致 性 缓存 库 : http://www.audioscrobbler.net/development/ketama/. 

磁盘 上 的 缓存 614 
磁盘 是 很 慢 的 ， 所 以 缓存 在 磁盘 上 的 最 好 是 持久 化 对 象 ， 很 难 全 部 装 进 内 存 的 对 象 ， 
或 者 静态 内 容 〈 例 如 预 处 理 的 目 定义 图 片 )。 
对 于 磁盘 上 的 缓存 和 Web 服务 器 ， 一 个 非常 有 用 的 技巧 是 使 用 404 错误 处 理 机 制 来 
捕捉 缓存 未 命中 的 情况 。 假 设 Web 应 用 要 在 头 部 展示 一 张 基 于 用 户 名 (“欢迎 回来 ， 
John!”) 的 自 定 义 图 片 ， 并 且 通 过 /images/welcomeback/iohn.jpg 这 样 的 路 径 引 用 此 
图 片 。 如 果 图 片 不 存在 ， 将 会 导致 一 个 404 错误 ， 并 且 触 发 上 述 错 误 处 理 。 这 个 错 
误 处 理 可 以 生成 图 片 ， 在 磁盘 上 存储 它 ， 然 后 发 出 一 个 重 定向 或 者 将 该 图 片 传 回 济 
览 器 。 后 续 的 请 求 只 需要 从 文件 中 直接 返回 图 片 。 
有 很 多 类 型 的 内 容 可 以 使 用 这 种 技巧 。 例 如 ， 不 用 再 将 最 近 的 标题 作为 HTML 部 分 
进行 缓存 ， 可 以 在 JavaScript 文件 中 存储 这 些 东 西 ， 然 后 在 网 页 头 中 引用 这 个 文件 : 
latest_headlines.js . 


缓存 失效 很 简单 : 删除 文件 即 可 。 可 以 通过 执行 一 个 删除 NN 分 钟 前 所 创建 的 文件 的 
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定时 任务 ， 来 实现 TTL 失效 。 如 果 想 要 限制 缓存 大 小 ， 也 可 以 通过 按 最 近 访 问 时 间 
排序 来 删除 文件 ， 从 而 实现 最 近 最 少 使 用 (LRU) 失效 算法 。 

如 果 失 效 策 略 是 基于 最 近 访问 时 间 ， 则 必须 在 文件 系统 挂 载 参数 中 打开 访问 时 间 记 
录 。( 忽 略 noatime 选 项 即 可 。) 如 果 这 么 做 ， 应 该 使 用 内 存 文件 系统 来 避免 大 量 磁 
盘 操 作 。 


14.3.3 缓存 控制 策略 
缓存 也 有 像 反 范式 化 数据 库 设 计 一 样 的 问题 : 重复 数据 ， 也 就 是 说 有 多 个 地 方 需 要 更 新 
数据 ， 所 以 需要 想 办 法 避免 读 到 脏 数 据 。 下 面 是 一 些 最 常见 的 缓存 控制 策略 。 


TTL (time to live, #7614) ) 
缓存 对 象 存储 时 设置 一 个 过 期 时 间 , 可 以 通过 清理 进程 在 达到 过 期 时 间 后 删 掉 对 象 ， 
或 者 先 留 着 直到 下 次 访问 时 再 清理 (清理 后 需要 使 用 新 的 版 本 替换 ) 。 对 于 数据 很 少 
变更 或 者 没有 新 数据 的 情况 ， 这 是 最 好 的 失效 策略 。 

显 式 失效 
如 果 不 能 接受 脏 数 据 ， 那 么 进程 在 更 新 原始 数据 时 需要 同时 使 缓存 失效 。 这 种 策略 
有 两 个 变种 ; 写 一 失效 和 写 一 更 新 。 写 一 失效 策略 很 简单 : 只 需要 标记 缓存 数据 已 
经 过 期 (是 否 清理 缓存 数据 是 可 选 的 ) 。 写 一 更 新 策略 需要 多 做 一 些 工作 ， 因 为 在 更 
新 数据 时 就 需要 替换 掉 缓 存 项 。 无 论 如 何 ， 这 都 是 非常 有 益 的 ， 特 别 是 当 生成 缓存 
数据 代价 很 昂贵 时 ( 写 线程 也 许 已 经 做 了 ) 。 如 果 更 新 缓存 数据 ， 后 续 的 请 求 将 不 再 
需要 等 待 应 用 来 生成 。 如 果 在 后 台 做 失效 处 理 ， 例 如 基于 TTL 的 失效 ， 就 可 以 在 一 
个 从 用 户 请 求 完全 分 离 出 来 的 进程 中 生成 失效 数据 的 新 版 本 。 

读 时 失效 
在 更 改 旧 数据 时 ， 为 了 避免 要 同时 失效 派生 出 来 的 脏 数 据 ， 可 以 在 缓存 中 保存 一 些 
信息 ， 当 从 缓存 中 读数 据 时 可 以 利用 这 些 信息 判断 数据 是 否 已 经 失效 。 和 显 式 失 
效 策 略 相 比 ， 这 样 做 有 很 大 的 优势 : 成 本 固定 且 可 以 分 散在 不 同时 间 内 。 假 设 要 失 
效 一 个 有 一 百 万 缓存 对 象 依赖 的 对 象 ， 如 果 采 用 写 时 失效 ， 需 要 一 次 在 缓存 中 失效 
一 百 万 个 对 象 ,即使 有 高 效 的 方法 来 找到 这 些 对 象 , 也 可 能 需要 很 长 的 时 间 才 能 完成 。 
如 果 采 用 读 时 失效 ， 写 操作 可 以 立即 完成 ， 但 后 续 这 一 百 万 对 象 的 读 操作 可 能 会 
略微 的 延迟 。 这 样 就 把 失效 一 百 万 对 象 的 开销 分 散 了 ， 并 且 可 以 帮助 避免 出 现 负载 
冲 高 和 延迟 增 大 的 峰值 。 


一 种 最 简单 的 读 时 失效 的 办 法 是 采用 对 象 版 本 控制 。 使 用 这 种 方法 ， 在 缓存 中 存储 一 个 
对 象 时 ， 也 可 以 存储 对 象 所 依赖 的 数据 的 当前 版 本 号 或 者 时 间 惟 。 例 如 ， 假 设 要 缓存 用 
户 博客 日 志 的 统计 信息 ， 包 括 用 户 发 表 的 博客 数 。 当 缓存 bLog_stats 对 象 时 ， 也 可 以 同 
时 存储 用 户 的 当前 版 本 号 ， 因 为 该 统计 信息 是 依赖 于 用 户 的 。 
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不 管 什 么 时 候 更 新 依赖 于 用 户 的 数据 ， 都 需要 更 新 用 户 的 版 本 号 ， 假 设 用 户 的 版 本 号 初 
始 为 0， 并 且 由 你 来 生成 和 缓存 统计 信息 。 当 用 户 发 表 了 一 篇 博客 ， 就 增加 用 户 的 版 本 
号 到 1 (当然 也 要 同时 存储 这 篇 博客 ， 尽 管 在 这 个 例子 并 没有 用 到 博客 数据 )。 然 后 当 需 
要 显示 统计 数据 的 时 候 ， 可 以 对 缓存 中 blog_stats 对 象 的 版 本 与 缓存 的 用 户 版 本 进行 比 
较 。 因 为 用 户 的 版 本 比 对 象 的 版 本 高 ， 所 以 可 以 知道 缓存 的 统计 信息 已 经 过 期 了 ， 需 要 
重新 计算 。 


这 是 一 个 非常 粗 米 的 内 容 失 效 方式 ， 因 为 它 假设 依赖 于 用 户 的 每 一 个 比特 的 数据 与 所 有 
其 他 数据 都 有 交互 。 但 这 个 假设 并 不 总 是 成 立 的 。 举 个 例子 ， 如 果 一 个 用 户 对 一 篇 博客 
做 了 编辑 ， 你 也 需要 增加 用 户 的 版 本 号 ， 这 就 会 导致 存储 的 统计 信息 失效 ， 而 实际 上 统 
计 信 息 (发 表 的 博客 数 ) 并 没 真 的 改变 。 这 个 取舍 是 很 简单 的 。 一 个 简单 的 缓存 失效 策 
略 不 只 是 更 容易 创建 ， 也 可 能 更 加 高 效 。 


对 象 版 本 控制 是 一 种 简单 的 标记 缓存 方法 ， 它 可 以 处 理 更 复杂 的 依赖 关系 。 一 个 标记 的 
缓存 可 以 识别 不 同类 型 的 依赖 ， 并 且 分 别 跟踪 每 个 依赖 的 版 本 。 回 到 第 11 章 中 图 书 俱 乐 
部 的 例子 ， 你 可 以 通过 下 面 的 版 本 号 标记 评论 ， 使 缓存 的 评论 依赖 于 用 户 的 版 本 和 书 的 
版 本 : user_ver=1234 和 book ver=5678。 任 一 版 本 号 变 了 ， 都 应 该 刷新 缓存 的 评论 。 


14.3.4 缓存 对 象 分 层 


分 层 缓存 对 象 对 检索 、 失 效 和 内 存 利用 都 有 帮助 。 相 对 于 只 缓存 对 象 ， 也 可 以 缓存 对 象 
的 ID、 对 象 的 ID 组 等 通常 需要 一 起 检索 的 数据 。 


电子 商务 网 站 的 搜索 结果 是 这 种 技术 很 好 的 例子 。 一 次 搜索 可 能 返回 一 个 匹配 产品 的 列 
表 ， 包 括 名称 、 描 述 、 缩 上 略 图， 以 及 价格 。 缓 存 整 个 列表 的 效率 很 低 : 其 他 的 搜索 也 可 
能 会 包含 一 些 相同 的 产品 ， 这 就 会 导致 数据 重复 ， 并 且 浪 费 内 存 。 这 种 策略 也 使 得 当 一 
个 产品 的 价格 变动 时 ， 找 出 并 失效 搜索 结果 变 得 很 困难 ， 因 为 你 必须 查看 每 个 列表 ， 找 
到 哪些 列表 包含 了 更 新 过 的 产品 。 


可 以 缓存 天 于 搜索 的 最 小 信息 ， 而 不 必 缓 存 整 个 列表 ， 例 如 返回 结果 的 数量 以 及 列表 中 
的 产品 ID。 然后 可 以 再 单独 缓存 每 个 产品 。 这 样 做 可 解决 两 个 问题 : 不 会 重复 存放 任何 
结 采 数据 ， 也 更 容易 在 失效 产品 的 粒度 上 去 失效 缓存 。 


缺点 则 是 ， 相 对 于 一 次 性 获得 整个 搜索 结果 ， 必 须 在 缓存 中 检索 多 个 对 象 。 然 而 不 管 怎 
么 说 ， 为 搜索 结果 缓存 产品 ID 的 列表 都 是 更 有 效 的 做 法 。 先 在 一 个 缓存 命中 返回 ID 的 
列表 ， 再 使 用 这 些 ID 去 请 求 缓存 获得 产品 信息 。 如 果 缓 存 允 许 在 一 次 调用 里 返回 多 个 
结果 ， 第 二 次 请 求 就 可 以 返回 多 个 产品 (memcached 通过 mget() 调用 来 支持 )。 
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WREATH, PET RES Beet ER. BREH TTL 策略 来 失效 搜索 结果 ， 
并 且 当 产品 变更 时 显 式 地 去 失效 单个 产品 。 现 在 想象 一 下 ， 一 个 产品 的 描述 发 生 了 变化 ， 
不 再 包含 搜索 中 匹配 的 关键 字 ， 但 是 搜索 结果 的 缓存 还 没有 过 期 失效 。 此 时 用 户 就 会 看 
到 错误 的 搜索 结果 ， 因 为 缓存 的 搜索 结果 将 会 引用 这 个 变化 了 的 产品 ， 即 使 它 不 再 包含 
匹配 搜索 的 关键 字 。 


对 于 大 多 数 应 用 程序 来 说 ， 这 不 是 问题 。 如 果 应 用 程序 不 能 容忍 这 种 情况 ， 可 以 使 用 基 
于 版 本 的 缓存 ， 并 在 执行 搜索 时 在 结果 中 存储 产品 的 版 本 号 。 当 发 现 搜索 结果 在 缓存 中 
时 ， 可 以 将 当前 搜索 结果 的 版 本 号 和 搜索 结果 中 每 个 产品 的 版 本 号 做 比较 。 如 果 发 现任 
何 一 个 产品 的 版 本 数据 不 一 致 ， 可 以 重新 搜索 并 且 重 新 缓存 结果 。 


这 对 理解 远程 缓存 访问 的 花 销 是 多 么 昂贵 非常 重要 。 虽 然 缓存 很 快 ， 也 可 以 避免 很 多 工 
作 ， 但 在 LAN 环境 下 网 络 往返 缓存 服务 器 通常 也 需要 0.3ms 左右 。 我 们 见 过 很 多 案例 ， 
复杂 的 网 页 需要 一 千 次 左右 的 缓存 访问 来 组 合 页 面 结果 ,这 将 会 耗费 3s 左右 的 网 络 延 时 ， 
意味 着 你 的 页 面 可 能 慢 得 不 可 接受 ， 即 使 它 甚 至 不 需要 访问 数据 库 ! 因此 ， 在 这 种 情况 
下 对 缓存 使 用 批量 获取 调用 是 非常 重要 的 。 对 缓存 进行 分 层 ， 采 用 小 一 些 的 本 地 缓存 ， 
也 可 能 获得 很 大 的 收益 。 


14.3.5 预 生 成 内 容 


除了 在 应 用 程序 级 别 缓存 位 数据 ， 也 可 以 在 后 台 预 先 请 求 一 些 页 面 ， 并 且 将 结果 存 为 静 
态 页 面 。 如 果 页 面 是 动态 的 ， 也 可 以 预先 生成 页 面 的 部 分 内 容 ， 然 后 使 用 像 服务 端 包含 
(SSI) 这 样 的 技术 创建 最 终 页 面 。 这 有 助 于 减 小 预 生成 内 容 的 大 小 和 开销 ， 否 则 可 能 在 
将 不 同 部 分 拼装 到 最 终 页 面 的 时 候 ， 由 于 微小 的 变化 产生 大 量 的 重复 内 容 。 几 乎 可 以 对 
任何 类 型 的 缓存 使 用 预 生成 策略 ， 包 括 memcached. 


预 生成 内 容 有 几 个 重要 的 好 处 。 


。 ”应 用 代码 没有 复杂 的 命中 和 未 命中 处 理 路 径 。 

。 当 未 命中 的 处 理 路 径 慢 得 不 可 接受 时 ， 这 种 方案 可 以 很 好 地 工作 ， 因 为 它 保证 了 未 
命中 的 情况 永远 不 会 发 生 。 实 际 上 ， 在 任何 时 候 设 计 任 何 类 型 的 缓存 系统 ， 总 是 应 
该 考虑 未 命中 的 路 径 有 多 慢 。 如 果 平 均 性 能 提升 很 大 ， 但 是 因为 要 预 生成 缓存 内 容 ， 
偶尔 有 一 些 请 求 变 得 非常 缓慢 ， 这 时 可 能 比 不 用 缓存 还 精 糕 。 性 能 的 持续 稳定 通常 
跟 高 性 能 一 样 重要 。 

。 预 生成 内 容 可 以 避免 在 缓存 未 命中 时 导致 的 雪崩 效应 。 


缓存 预 生成 好 的 内 容 可 能 占用 大 量 空 间 ， 并 且 并 不 总 能 预 生成 所 有 东西 。 无 论 是 哪 种 形 
式 的 缓存 ， 需 要 预 生成 的 内 容 中 最 重要 的 部 分 是 那些 最 经 常 被 请 求 ， 或 者 生成 的 成 本 最 
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高 的 ， 所 以 可 以 通过 本 章 前 面 提 到 的 404 错误 处 理 机 制 来 按 需 生成 。 
预 生成 的 内 容 有 时 候 也 可 以 从 内 存 文件 系统 中 获 益 ， 因 为 可 以 避免 磁盘 IO。 


14.3.6 作为 基础 组 件 的 缓存 


缓存 有 可 能 成 为 基础 设施 的 重要 组 成 部 分 。 也 很 容易 陷入 一 个 陷阱 ， 认 为 缓存 虽然 很 好 
用 ,但 并 不 是 重要 到 非 有 不 可 的 东西 。 你 也 许 会 辩 驶 ， 如 果 缓 存 服 务 器 宕 机 或 者 缓存 被 
清空 ， 请 求 也 可 以 直接 落 在 数据 库 上 ， 系 统 依然 可 以 正常 运行 。 如 果 是 刚刚 将 缓存 加 入 
应 用 系统 ， 这 也 许 是 对 的 ， 但 是 缓存 的 加 入 可 以 使 得 在 应 用 压力 显著 增长 时 不 需要 对 系 
统 的 某 些 部 分 同比 增加 资源 投入 一 一 通常 是 数据 库 部 分 。 因 此 ， 系 统 可 能 慢 慢 地 变 得 对 
缓存 非常 依赖 ， 却 没有 被 发 觉 。 


例如 ， 如 果 高 速 缓存 命中 率 是 90% ， 当 由 于 某 种 原因 失去 缓存 ， 数 据 库 上 的 负载 将 增加 
到 原来 的 10 倍 。 这 很 可 能 导致 压力 超过 数据 库 服务 器 的 性 能 极限 。 


为 了 避免 像 这 样 的 意外 ， 应 该 设计 一 些 高 可 用 性 缓存 (包括 数据 和 服务 ) 的 解决 方案 ， 
或 者 至 少 是 评估 好 禁用 缓存 或 丢失 缓存 时 的 性 能 影响 。 比 如 说 可 以 设计 应 用 在 遇 到 这 样 
的 情况 时 能 够 进行 降级 处 理 。 


14.3.7 使 用 HandlerSocket 和 memcached 


相对 于 数据 存储 在 MySQL 中 而 缓存 在 MySQL 外 部 的 缓存 方案 ， 另 外 有 一 种 替代 方法 
是 为 MySQL 创建 一 个 更 快 的 访问 路 径 ， 直 接 绕 过 使 用 缓存 。 对 于 小 而 简单 的 查询 语句， 
很 大 一 部 分 开销 来 自 解析 SQL, 检查 权限 ,生成 执行 计划 , 等 等 。 如 果 这 种 开销 可 以 避免 ， 
MySQL 在 处 理 简 单 查询 时 将 非常 快 。 


目前 有 两 个 解决 方案 可 以 用 所 谓 的 NoSQL 方式 访问 MySQL。 第 一 种 是 一 个 后 台 进 程 插 
件 ， 称 为 HandlerSocket， 由 DeNA 开发 ， 这 是 日 本 最 大 的 社交 网 站 。HandlerSocket È 
许 通 过 一 个 简单 的 协议 访问 InnoDB Handler 对 象 。 实 际 上 ， 也 就 是 绕 过 了 上 层 的 服务 器 
层 ， 通 过 网 络 直接 连接 到 了 InnoDB 引擎 层 。 有 报告 称 HandlerSocket 每 秒 可 以 执行 超过 
750 000 条 查询 。Percona Server 分 支 中 自 带 了 HandlerSocket 插件 引擎 层 。 


第 二 个 方案 是 通过 memcached 协议 访问 InnoDB, MySQL 5.6 的 实验 室 版 本 有 一 个 插件 
提供 了 这 个 接口 。 


两 种 方法 都 有 一 些 限 制 一 一 特别 是 memcached 的 方法 ， 这 种 方法 对 很 多 访问 数据 的 方法 
都 不 支持 。 为 什么 会 希望 采用 SQL 以 外 的 什么 办 法 访问 数据 呢 ? 除了 速度 之 外 ， 最 大 的 
原因 可 能 是 简单 。 这 样 做 最 大 的 好 处 是 可 以 摆脱 缓存 ， 以 及 所 有 的 失效 逻辑 ， aN E 
们 服务 的 额外 的 基础 设施 。 
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14.4 拓展 MySQL 


如 果 MySQL 不 能 做 你 需要 的 事 ， 一 种 可 能 是 拓展 其 功能 。 在 这 里 我 们 不 会 展示 如 何 做 
到 这 一 点 ， 但 会 提供 一 些 可 能 的 方向 。 如 入 你 对 进一步 探索 有 兴趣 ， 那 么 有 很 多 很 好 的 
在 线 资 源 ， 以 及 许多 关于 这 些 内 容 的 书籍 可 以 参考 。 


当 我 们 说 “MySQL 不 能 做 你 需要 的 事 ” ,我们 指 的 是 两 件 事情 :MySQL 根本 做 不 到 这 一 点 ， 
或 者 MySQL 可 以 做 到 ,但 是 只 能 通过 缓慢 或 牺 拙 的 方法 ， 总 之 做 得 不 够 好 。 无 论 哪个 
都 是 需要 对 MySQL 拓展 的 原因 。 好 消息 是 ， MySQL 已 经 越 来 越 模块 化 和 通用 。 


存储 引擎 是 拓展 MySQL 的 一 个 很 好 的 方式 。Brian Aker 已 经 写 了 一 个 存储 引擎 的 框架 ， 
还 有 一 系列 介绍 有 关 如 何 开始 编写 自己 的 存储 引擎 的 文章 。 这 是 目前 几 个 主要 的 第 三 方 
存储 引擎 的 基础 。 许 多 公司 都 编写 了 它们 自己 的 内 部 存储 引擎 。 例 如 ， 一 些 社交 网 络 公 
司 使 用 了 特殊 的 为 社交 图 形 操作 设计 的 存储 引擎 ， 我 们 还 知道 有 个 公司 定制 了 一 个 用 于 
模糊 搜索 的 引擎 。 写 一 个 简单 的 自 定义 存储 引擎 并 不 难 。 


还 可 以 使 用 存储 引擎 作为 另 一 个 软件 的 接口 。Sphinx 引擎 就 是 一 个 很 好 的 例子 ， 该 引擎 
是 Sphinx 全 文 检索 软件 的 接口 ( 见 附 录 F). 


14.5 MySQL 的 替代 品 


MySQL 并 不 是 适合 每 一 个 场景 的 解决 方案 。 有 些 工 作 通常 在 MySQL 以 外 来 做 会 更 好 ， 
即使 MySQL 理论 上 也 可 以 做 到 。 


最 明显 的 一 个 例子 是 在 传统 的 文件 系统 中 存储 文件 ， 而 不 是 在 表 中 。 图 像 文件 是 经 典 案 
例 : 虽然 可 以 把 它们 放 到 一 个 BLOB 列 ， 但 这 通常 不 是 个 好 办 法 。 一 般 的 做 法 是 ， 在 
文件 系统 中 存储 图 片 或 其 他 大 型 二 进 制 文件 ， 而 在 MySQL 中 只 存储 文件 名 ; 然后 应 用 
程序 在 MySQL 之 外 存 取 文件 。 对 于 Web 应 用 程序 ， 可 以 把 文件 名 放 在 <img> 元 素 的 
src 属性 中 ， 这 样 就 可 以 实现 对 文件 的 存 取 。 


全 文 检索 是 另 一 个 最 好 放 在 MySQL 之 外 处 理 的 例子 一 一 MySQL 在 全 文 搜索 方面 明显 不 
如 Lucene 和 Sphinx, 


NDB API 也 可 能 对 某 些 任 务 有 用 。 例 如 ， 尽 管 MySQL 的 NDB 集群 存储 引擎 (目前 
还 ) 不 适合 存储 一 个 高 性 能 Web 应 用 程序 的 全 部 数据 ,但 用 NDB API 直接 存储 网 站 会 
话 数据 或 用 户 注 册 信息 还 是 可 能 的 。 在 如 下 网 站 可 以 了 解 到 更 多 关于 NDB API 的 内 容 : 
http://dev.mysql.com/doc/ndbapi/en/index.html。 还 有 供 Apache 使 用 的 NDB 模块 ，mod_ 


注 3 : KA MySQL 的 复制 来 快速 分 布 镜像 到 其 他 机 器 更 有 优势 ， 我 们 知道 一 些 程序 使 用 这 种 技术 。 
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ndb, FILA http://code.google.com/p/mod-ndb/ 下 载 。 


最 后 ， 对 于 茶 些 操作 一 一 如 图 形 关 系 和 树 遍 历 一 一 关系 型 数据 库 并 不 总 是 正确 的 典范 。 
MySQL 并 不 擅长 分 布 式 数据 处 理 ， 因 为 它 缺 乏 并 行 执行 查询 的 能 力 。 出 于 这 些 目的 情 
沈 还 是 建议 使 用 其 他 工具 〈 可 能 与 MySQL 结合 ) 。 现 在 想到 的 例子 包括 : 


。 对 于 简单 的 键 一 值 存储 ， 在 复制 严重 落后 的 非常 高 速 的 访问 场景 中 ， 我 们 建议 用 
Redis 替换 MySQL。 即 使 MySQL 主 库 可 以 承担 这 样 的 压力 ， 备 库 的 延迟 也 是 非常 
让 人 头疼 的 。Redis 也 常用 来 做 队列 ， 因 为 它 对 队列 操作 支持 得 很 好 。 

e Hadoop 是 房间 中 的 大 象 ， 一 语 双关 。 混 合 MySQL/Hadoop 的 部 署 在 处 理 大 型 或 半 
结构 化 数据 时 非常 常见 。 


14.6 B45 


优化 并 不 只 是 数据 库 的 事 。 正 如 我 们 在 第 3 章 建议 的 ， 最 高 形式 的 优化 既 包 含 业 务 上 的 ， 
也 包含 用 户 层 的 。 全 方位 的 优化 才 是 好 的 优化 。 


一 般 来 说 ， 首 先 要 做 的 事 是 测量 。 认 真 剖析 每 一 层 的 问题 。 哪 一 层 导致 了 大 部 分 的 啊 应 
时 间 ? 对 这 一 层 就 要 重点 关注 。 如 果 用 户 的 经 验 是 大 部 分 的 时 间 消 耗 在 浏览 器 的 DOM 
演 染 上 面 ，MySQL 只 贡献 总 响应 时 间 的 一 小 部 分 ， 那 么 进一步 优化 查询 语句 绝对 不 可 
能 明显 地 改善 用 户 体验 。 在 测量 完成 后 ， 通 常 很 容易 理解 应 该 在 哪里 投入 精力 。 我 们 建 
议 阅 读 Steve Souders 的 两 本 书 (High Performance Web Sites 和 Even Faster Web Sites) , 
并 且 建 议 使 用 New Relic 工具 。 


在 Web 服务 器 的 配置 和 缓存 中 经 常 可 以 发 现 大 问题 ， 而 这 些 问 题 往往 很 容易 解决 。 还 有 
一 个 固有 的 观念 ,“ 总 是 数据 库 的 问题 ”， 但 这 其 实 是 不 正确 的 。 应 用 程序 中 的 其 他 层 也 
同样 重要 ， 它 们 很 可 能 被 错误 配置 ， 尽 管 有 时 不 太 明 显 。 特 别 是 缓存 ， 能 承受 比 只 使 用 
MySQL 要 低 得 多 的 成 本 传递 大 量 内 容 。 虽 然 Apache 依然 是 世界 上 最 流行 的 Web 服务 
器 软件 ， 但 它 并 不 总 是 最 合适 的 工具 ， 因 此 考虑 像 Nginx 这 样 的 替代 方案 也 是 非常 有 意 
义 的 。 
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第 15 章 


备份 与 恢复 


如 采 没 有 提前 做 好 备份 规划 ， 也 许 以 后 会 发 现 已 经 错失 了 一 些 最 佳 的 选择 。 例 如 ， 在 服 
务 器 已 经 配置 好 以 后 ， 才 想起 应 该 使 用 LVM， 以 便 可 以 获取 文件 系统 的 快照 一 一 但 这 时 
已 经 太 迟 了 。 在 为 备份 配置 系统 参数 时 ， 可 能 没有 注意 到 某 些 系统 配置 对 性 能 有 着 重要 
影响 。 如 有 果 没 有 计划 做 定期 的 恢复 演练 ， 当 真 的 需要 恢复 时 ， 就 会 发 现 并 没有 那么 顺利 。 


相对 于 本 书 的 第 一 版 和 第 二 版 来 说 ， 我 们 在 此 假设 大 部 分 用 户主 要 使 用 InnoDB 而 不 是 
MyISAM。 在 本 章 中 ,我 们 不 会 涵盖 一 个 精心 设计 的 备份 和 恢复 解决 方案 的 所 有 部 分 一 一 
而 仅 涉及 与 MySQL 相关 的 部 分 。 我 们 不 打算 包括 的 话题 如 下 : 


。 ”安全 (访问 备份 ， 恢复 数据 的 权限 ， 文 件 是 否 需 要 加 密 )。 | 

。 备份 存储 在 哪里 ， 包 括 它们 应 该 离 源 数据 多 远 (在 一 块 不 同 的 盘 上 ， 一 台 不 同 的 服 
务 器 上 ， 或 离线 存储 ) ， 以 及 如 何 将 数据 从 源头 移动 到 目的 地 。 

© 保留 策略 、 审 计 、 法 律 要求 ， 以 及 相关 的 条 款 。 

© 存储 解决 方案 和 人 介质， 压缩， 以 及 增 量 备份 。 

。 存储 的 格式 。 

。 对 备份 的 监控 和 报告 。 

。 存储 层 内 置 备份 功能 ， 或 者 其 他 专用 设备 ， 例 如 预制 式 文件 服务 器 。 


像 这 样 的 话题 已 经 在 许多 书 中 涉及 ， 例 如 W. Curtis Preston 的 Backup & Recouery 
( O’Reilly) 。 





在 开始 本 章 之 前 ， 让 我 们 先河 清 几 个 核心 术语 。 首 先 ， 经 常 可 以 听 到 所 谓 的 热 备份 、 上 暖 
备份 和 冷 备份 。 人 们 经 常 使 用 这 些 词 来 表示 一 个 备份 的 影响 : 例如 ,“ 热 ”备份 不 需要 
任何 的 服务 停机 时 间 。 问 题 是 对 这 些 术 语 的 理解 因 人 而 异 。 有 些 工 具 虽 然 在 名 字 中 使 用 
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了 “ 热 备 份 ， 但 实际 上 并 不 是 我 们 所 认为 的 那样 。 我 们 尽量 避 开 这 些 术语 ， 而 直接 说 
明 某 个 特别 的 技术 或 工具 对 服务 器 的 影响 。 | 


另外 两 个 让 人 困惑 的 词 是 还 原 和 恢复 。 在 本 章 中 它们 有 其 特定 的 含义 。 还 原意 味 着 从 备 
份 文件 中 获取 数据 ， 可 以 加 载 这 些 文件 到 MySQL 里 ， 也 可 以 将 这 些 文件 放置 到 MySQL 
期 望 的 路 径 中 。 恢 复 一 般 意味 着 当 某 些 异 常 发 生 后 对 一 个 系统 或 其 部 分 的 拯救 。 包 括 从 
备份 中 还 原 数据 ， 以 及 使 服务 器 完全 恢复 功能 的 所 有 必要 步 又， 例如 重启 MySQL、 改 
变 配置 和 预 热 服务 器 的 缓存 等 。 


在 很 多 人 的 概念 中 ， 恢 复 仅 意 味 着 修复 崩溃 后 损坏 的 表 。 这 与 恢复 一 个 完整 的 服务 器 是 
不 同 的 。 存 储 引擎 的 崩溃 恢复 要 求 数据 和 日 志文 件 一 致 。 要 确保 数据 文件 中 只 包含 已 经 
提交 的 事务 所 做 的 修改 ， 恢 复 操作 会 将 日 志 中 还 没有 应 用 到 数据 文件 的 事务 重新 执行， 
这 也 许 是 恢复 过 程 的 一 部 分 ， 甚 至 是 备份 的 一 部 分 。 然 而 ， 这 和 一 个 意外 的 DROP TABLE 
事故 后 需要 做 的 事 是 不 一 样 的 。 


15.1 为 什么 要 备份 
下 面 是 备份 非常 重要 的 几 个 理由 ， 


灾难 恢复 

灾难 恢复 是 下 列 场景 下 需要 做 的 事情 : 硬件 故障 、 一 个 不 经 意 的 Bug 导致 数据 损坏 ， 
或 者 服务 器 及 其 数据 由 于 某 些 原因 不 可 获取 或 无 法 使 用 等 。 你 需要 准备 好 应 付 很 多 
问题 ; 某 人 偶然 连 错 服务 器 执行 了 一 个 ALTER TABLE®! 的 操作 ， 机 房 大 楼 被 烧毁 ， 
恶意 的 黑客 攻击 或 MySQL 的 Bug 等 ,尽管 遭受 任何 一 个 特殊 的 灾难 的 几率 都 非常 低 ， 
但 所 有 的 风险 疮 加 在 一 起 就 很 有 可 能 会 碰 到 。 

人 们 改变 想法 
不 必 惊讶 ， 很 多 人 经 常会 在 删除 某 些 数据 后 又 想 要 恢复 这 些 数 据 。 

审计 
有 时 候 需 要 知道 数据 或 Schema 在 过 去 的 某 个 时 间 点 是 什么 样 的。 例如 ， 你 也 许 被 
卷 人 一 场 法 律 官司 ， 或 发 现 了 应 用 的 一 个 Bug， 想 知道 这 段 代码 之 前 干 了 什么 (有 
时 候 ， 仅 仅 依靠 代码 的 版 本 控制 还 不 够 )。 

测试 
一 个 最 简单 的 基于 实际 数据 来 测试 的 方法 是 ， 定 期 用 最 新 的 生产 环境 数据 更 新 测试 
服务 器 。 如 果 使 用 备份 的 方案 就 非常 简单 :只 要 把 备份 文件 还 原 到 测试 服务 器 上 即 可 。 


21: Baron 仍然 记得 他 毕业 后 的 第 一 个 工作 ， 当 时 他 把 电子 商务 网 站 的 生产 服务 器 上 的 发 贷 表 删 除了 两 
列 。 
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检查 你 的 假设 。 例 如 ， 你 认为 共享 虚拟 主机 供应 商会 提供 MySQL 服务 器 的 备份 ? 许多 
主机 供应 商 根 本 不 备份 MySQL 服务 器 ， 另 外 一 些 也 仅仅 在 服务 器 运行 时 复制 文件 ， 这 
可 能 会 创建 一 个 损坏 的 没有 用 处 的 备份 。 


15.2 定义 恢复 需求 


如 果 一 切 正常 ， 那 么 永远 也 不 需要 考虑 恢复 。 但是， 一 旦 需要 恢复 ， 只 有 世界 上 最 好 的 
备份 系统 是 没 用 的 ， 还 需要 一 个 强大 的 恢复 系统 。 


不 幸 的 是 ， 让 备份 系统 平滑 工作 比 构造 良好 的 恢复 过 程 和 工具 更 容易 。 原 因 如 下 : 


。 备份 在 先 。 只 有 已 经 做 了 备份 才 可 能 恢复 ， 因 此 在 构建 系统 时 ， 注 意 力 自然 会 集中 
在 备份 上 。 

。 备份 由 脚本 和 任务 自动 完成 。 经 常 不 经 意 地 ， 我 们 会 花 些 时 间 调 优 备份 过 程 。 花 5 
分 钟 来 对 备份 过 程 做 小 的 调整 看 起 来 并 不 重要 , 但 是 你 是 否 天 天 同样 地 重视 恢复 呢 ? 

。 备份 是 日 常任 务 ， 但 恢复 常常 发 生 在 危急 情形 下 。 

。 ”因为 安全 的 需要 ， 如 果 正 在 做 异地 备份 ， 可 能 需要 对 备份 数据 进行 加 密 ， 或 采取 其 
他 措施 来 进行 保护 。 安 全 性 往往 只 关注 数据 被 盗用 的 后 果 ， 但 是 有 没有 人 想 过 ， 如 
果 没 有 人 能 对 用 来 恢复 数据 的 加 密 卷 解锁 ， 或 需要 从 一 个 整 块 的 加 密 文件 中 抽取 单 
个 文件 时 ， 损 害 又 是 多 大 ? 

© 只 有 一 个 人 来 规划 、 设 计 和 实施 备份 。 当 灾难 袭 来 时 ， 那 个 人 可 能 不 在 。 因 此 需要 
培养 几 个 人 并 有 计划 地 互 为 备份 ， 这 样 就 不 会 要 求 一 个 不 合格 的 人 来 恢复 数据 。 


这 里 有 一 个 我 们 看 到 的 真实 例子 : 一 个 客户 报告 说 当 mysgqlidump 加 上 -4 选项 后 ， 备 份 
变 得 像 内 电 一 般 快 ， 他 想 知道 为 什么 没有 一 个 人 提出 该 选项 可 以 如 此 快 地 加 速 备 份 过 程 。 
如 果 这 个 客户 已 经 尝试 还 原 这 些 备 份 , 就 不 难 发 现 其 原因 :使 用 -d 选项 将 不 会 备份 数据 | 
这 个 客户 关注 备份 ， 却 没有 关注 恢复 ， 因 此 完全 没有 意识 到 这 个 问题 。 


规划 备份 和 恢复 策略 时 ， 有 两 个 重要 的 需求 可 以 帮助 思考 : 恢复 点 目标 (PRO) 和 恢复 
时 间 目 标 (RTO)。 它 们 定义 了 可 以 容忍 丢失 多 少数 据 ， 以 及 需要 等 待 多 久 将 数据 恢复 。 
在 定义 RPO 和 RTO 时 ， 先 尝试 回答 下 面 几 类 问题 : 


。 在 不 导致 严重 后 果 的 情况 下 ， 可 以 容忍 丢失 多 少数 据 ? 需要 故障 恢复 ， 还 是 可 以 接 
受 自从 上 次 日 常备 份 后 所 有 的 工作 全 部 丢失 ? 是 否 有 法 律 法 规 的 要 求 ? 

。 ”恢复 需要 在 多 长 时 间 内 完成 ? 哪 种 类 型 的 宕 机 是 可 接受 的 ? 哪 种 影响 〈 例 如， 部 分 
服务 不 可 用 ) 是 应 用 和 用 户 可 以 接受 的 ? 当 那 些 场景 发 生 时 ， 又 该 如 何 持续 服务 ? 

。 需要 恢复 什么 ? 常见 的 需求 是 恢复 整个 服务 器 ， 单 个 数据 库 ， 单 个 表 ， 或 仅仅 是 特 
定 的 事务 或 语句。 | 
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建议 将 上 面 这 些 问题 的 答案 明确 地 用 文档 记录 下 来 ， 同 时 还 应 该 明确 备份 策略 ， 以 及 各 
份 过 程 。 


备份 误区 1 ; “复制 就 是 备份 


这 是 我 们 经 常 碰 到 的 一 个 误区 。 复 制 不 是 备份 ， 当 然 使 用 RAID 阵列 也 不 是 备份 。 
为 什么 这 么 说 ? 可 以 考虑 一 下 ， 如 果 意 外 地 在 生产 库 上 执行 了 DROP DATABASE, ¢ 
们 是 否 可 以 帮 你 恢复 所 有 的 数据 ? RAID 和 复制 连 这 个 简单 的 测试 都 没 法 通过 。 它 
们 不 是 备份 ， 也 不 是 备份 的 替代 品 。 只 有 备份 才能 满足 备份 的 要 求 。 


15.3 设计 MySQL 备份 方案 


备份 MySQL 比 看 起 来 难 。 最 基本 的 ， 备 份 仅 是 数据 的 一 个 副本 ， 但 是 受 限 于 应 用 程序 
HER, MySQL 的 存储 引擎 架构 ， 以 及 系统 配置 等 因素 ， 会 让 复制 一 份 数据 都 变 得 很 
困难 。 


在 深入 所 有 选项 细 市 之 前 ， 先 来 看 一 下 我 们 的 建议 : 


。 在 生产 实践 中 ， 对 于 大 数据 库 来 说 ， 物 理 备份 是 必需 的 : 逻辑 备份 太 慢 并 受到 
资源 限制 ， 从 逻辑 备份 中 恢复 需要 很 长 时 间 。 基 于 快照 的 备份 ， 例 如 Percona 
XtraBackup #11 MySQL Enterprise Backup 是 最 好 的 选择 。 对 于 较 小 的 数据 库 ， 逻 辑 
备份 可 以 很 好 地 胜任 。 

。 保留 多 个 备份 集 。 

。 定期 从 逻辑 备份 (或 者 物理 备份 ) 中 抽取 数据 进行 恢复 测试 。 

。 保存 二 进 制 日 志 以 用 于 基于 故障 时 间 点 的 恢复 。expire_ logs days 参数 应 该 设置 得 
足够 长 ， 至 少 可 以 从 最 近 两 次 物理 备份 中 做 基于 时 间 点 的 恢复 ， 这 样 就 可 以 在 保持 
主 库 运 行 且 不 应 用 任何 二 进 制 日 志 的 情况 下 创建 一 个 备 库 。 备 份 二 进 制 日 志 与 过 期 
设置 无 天 ， 二 进 制 日 志 备份 需要 保存 足够 长 的 时 间 ， 以 便 能 从 最 近 的 逻辑 备份 进行 
恢复 。 

。 完全 不 借助 备份 工具 本 身 来 监控 备份 和 备份 的 过 程 。 需 要 另外 验证 备份 是 否 正 常 。 

。 通过 演练 整个 恢复 过 程 来 测试 备份 和 恢复 。 测 算 恢 复 所 需要 的 资源 (CPU 、 磁 盘 空间 、 
实际 时 间 ， 以 及 网 络 带 宽 等 )。 

。 对 安全 性 要 仔细 考虑 。 如 果 有 人 能 接触 生产 服务 器 ， 他 是 否 也 能 访问 备份 服务 器 ? 
反 过 来 呢 ? 
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Fis RPO # RTO 可 以 指导 备份 策略 。 是 需要 基于 故障 时 间 点 的 恢复 能 力 ， 还 是 从 昨 
晚 的 备份 中 恢复 但 会 丢失 此 后 的 所 有 数据 就 足够 了 ? 如 果 需 要 基于 故障 时 间 点 的 恢复 ， 
可 能 要 建立 日 常备 份 并 保证 所 需要 的 二 进 制 日 志 是 有 效 的 ， 这 样 才 能 从 备份 中 还 原 ， 并 
通过 重 放 二 进 制 日 志 来 恢复 到 想 要 的 时 间 点 。 


一 般 说 来 ， 能 承受 的 数据 丢失 越 多 ， 备 份 越 简单 。 如 果 有 非常 苛刻 的 需求 ， 要 确保 能 恢 
复 所 有 数据 ， 备 份 就 很 困难 。 基 于 故障 时 间 点 的 恢复 也 有 几 类 。 一 个 “宽松 ”的 故障 时 
间 点 恢复 需求 意味 着 需要 重建 数据 ， 直 到 “足够 接近 ”问题 发 生 的 时 刻 。 一 个 “硬性 ” 
的 需求 意味 着 不 能 容忍 丢失 任何 一 个 已 提交 的 事务 ， 即 使 某 些 可 怕 的 事情 发 生 (例如 服 
务 器 着 火 了 ) 。 这 需要 特别 的 技术 ， 例 如 将 二 进 制 日 志保 存在 一 个 独立 的 SAN 卷 或 使 用 
DRBD 磁盘 复制 。 


15.3.1 在 线 备份 还 是 离线 备份 


MURA RE, KA MySQL 做 备份 是 最 简单 最 安全 的 ， 也 是 所 有 获取 一 致 性 副本 的 方法 中 


最 好 的 ， 而 且 损坏 或 不 一 致 的 风险 最 小 。 如 果 关 闭 了 MySQL， 就 根本 不 用 关心 InnoDB 


缓冲 池 中 的 脏 页 或 其 他 缓存 。 也 不 需要 担心 数据 在 尝试 备份 的 过 程 被 修改 ， 并 且 因 为 服 
务 器 不 对 应 用 提供 访问 ， 所 以 可 以 更 快 地 完成 备份 。 


尽管 如 此 ， 让 服务 器 停机 的 代价 可 能 比 看 起 来 要 更 昂贵 。 即 使 能 最 小 化 停机 时 间 ， 在 高 
负载 和 高 数据 量 下 关闭 和 重启 MySQL 也 可 能 要 花 很 长 一 段 时 间 ， 这 在 第 8 章 中 讨论 过 。 
我 们 演示 过 一 些 使 这 个 影响 最 小 化 的 技术 ， 但 并 不 能 将 其 减少 为 零 。 因 此 ， 必 须要 设计 
不 需要 生产 服务 器 停机 的 备份 。 即 便 如 此 ， 由 于 一 致 性 的 需要 ， 对 服务 器 进行 在 线 备份 
仍然 会 有 明显 的 服务 中 断 。 


在 众多 的 备份 方法 中 ， 一 个 最 大 问题 就 是 它们 会 使 用 FLUSH TABLES WITH READ LOCK 操 
作 。 这 会 导致 MySQL 关闭 并 锁 住 所 有 的 表 ， 将 MyISAM 的 数据 文件 刷新 到 磁盘 上 (但 
InnoDB 不 是 这 样 的 ! )， 并 且 刷 新 查询 缓存 。 该 操作 需要 非常 长 的 时 间 来 完成 。 具 体 需 
要 多 长 时 间 是 不 可 预 估 的 ;如果 全 局 读 锁 要 等 待 一 个 长 时 间 运 行 的 语 名 完成， 或 有 许多 
表 ， 那 么 时 间 会 更 长 。 除 非 锁 被 释放 ， 否 则 就 不 能 在 服务 器 上 更 改 任何 数 据 ， 一 切 都 会 
被 阻塞 和 积压 生 *。FLUSH TABLES WITH READ LOCK 不 像 关闭 服务 器 的 代价 那么 高 , 因为 大 
部 分 缓存 仍然 在 内 存 中 ， 并 且 服 务 器 一 直 是 “ 预 热 ”的 ,但 是 它 也 有 非常 大 的 破坏 性 。 
如 果 有 人 说 这 样 做 很 快 ， 可 能 是 准备 向 你 推销 某 种 从 来 没有 在 真正 的 线 上 服务 器 上 运行 
过 的 东西 。 


注 2 : “是 的 ， 即 使 SELECT 查询 也 会 被 阻塞 ， 因 为 如 果 有 一 个 查询 需要 修改 革 些 数据 ， 只 要 它 开 始 等 待 表 
上 的 写 锁 ， 所 有 尝试 获取 读 锁 的 查询 也 必须 等 待 。 
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避免 使 用 FLUSH TABLES WITH READ LOCK 的 最 好 的 方法 是 只 使 用 InnoDB 表 。 在 权限 和 
其 他 系统 信息 表 中 使 用 MyISAM 表 是 不 可 避免 的 ， 但 是 如 果 数 据 改变 量 很 少 〈 正 党 情况 
下 )， 你 可 以 只 刷新 和 锁 住 这 些 表 ， 这 不 会 有 什么 问题 。 


在 规划 备份 时 ， 有 一 些 与 性 能 相关 的 因素 需要 考虑 。 


锁 时 间 
需要 持 有 锁 多 长 时 间 ， 例 如 在 备份 期 间 持 有 的 全 局 FLUSH TABLES WITH READ 
LOCK ? 
备份 时 间 
复制 备份 到 目的 地 需要 多 久 ? 
备份 负载 
在 复制 备份 到 目的 地 时 对 服务 器 性 能 的 影响 有 多 少 ? 
恢复 时 间 
把 备份 镜像 从 存储 位 置 复制 到 MySQL 服务 器 ， 重 放 二 进 制 日 志 等 ， 需 要 多 久 ? 


最 大 的 权衡 是 备份 时 间 与 备份 负载 。 可 以 牺牲 其 一 以 增强 另外 一 个 。 例 如 ， 可 以 提高 备 
份 的 优先 级 ， 代 价 是 降低 服务 器 性 能 。 


同样 ， 也 可 以 利用 负载 的 特性 来 设计 备份 。 例 如 ， 如 果 服 务 器 在 晚上 的 8 小 时 内 仅仅 有 
50% 的 负载 ， 那 么 可 以 尝试 规划 备份 ， 使 得 服务 器 的 负载 低 于 50% 且 仍 能 在 8 小 时 内 完 
成 。 可 以 采用 许多 方法 来 完成 这 个 目标 ， 例 如 ， 可 以 用 ionice 和 mice 来 提高 复制 或 压缩 
操作 的 优先 级 ， 使 用 不 同 的 压缩 等 级 ， 或 在 备份 服务 器 上 压缩 而 不 是 在 MySQL 服务 器 
上 。 甚 至 可 以 利用 Izo 或 pigz 以 获取 更 快 的 压缩 。 也 可 以 使 用 0_DIRECT 或 fadvise() 在 
复制 操作 时 绕 开 操作 系统 的 缓存 ， 以 避免 污染 服务 器 的 缓存 。 像 Percona XtraBackup 和 
MySQL Enterprise Backup 这 样 的 工具 都 有 限 流 选项 ， 可 在 使 用 pv 时 加 --rate-limit 选项 
来 限制 备份 脚本 的 吞吐 量 。 


15.3.2 逻辑 备份 还 是 物理 备份 


有 两 种 主要 的 方法 来 备份 MySQL 数据 : 逻辑 备份 (也 叫 “ 导 出 ”) 和 直接 复制 原始 文件 
的 物理 备份 。 逻 辑 备 份 将 数据 包含 在 一 种 MySQL 能 够 解析 的 格式 中 ， 要 么 是 SQL， 要 
么 是 以 某 个 符号 分 隔 的 文本 。 原 始 文件 是 指 存在 于 硬盘 上 的 文件 。 


任何 一 种 备份 都 有 其 优点 和 缺 后 。 


注 3: 由 mysqldump 生成 的 还 辑 备份 并 不 一 定 是 文本 文件 。SQL 导出 会 包含 许多 不 同 的 字符 集 ， 同 样 也 
会 包含 二 进 制 数据 ,这 些 数据 并 不 是 有 效 的 字符 。 对 于 许多 编辑 器 来 说 ,文件 行 也 可 能 会 太 长 。 但 是 ，. 
大 多 数 这 样 的 文件 还 是 可 以 被 编辑 器 打开 和 读 取 ， 特 别 是 mysqldump 使 用 了 --hex-blob 选项 时 。 
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逻辑 备份 
逻辑 备份 有 如 下 优点 : 


尽管 如 此 ， 逻 辑 备份 也 有 它 的 缺点 : 


逻辑 备份 是 可 以 用 编辑 器 或 像 grep 和 sed 之 类 的 命令 查看 和 操作 的 普通 文件 。 当 需 
要 恢复 数据 或 只 想 查 看 数据 但 不 恢复 时 ， 这 都 非常 有 帮助 。 

恢复 非常 简单 。 可 以 通过 管道 把 它们 输入 到 mysql, KAEH mysqlimport. 

可 以 通过 网 络 来 备份 和 恢复 一 一 就 是 说 ， 可 以 在 与 MySQL 主机 不 同 的 另外 一 台 机 
器 上 操作 。 | 

可 以 在 类 似 Amazon RDS 这 样 不 能 访问 底层 文件 系统 的 系统 中 使 用 。 

非常 灵活 ， 因 为 mysqldump 一 一 大 部 分 人 喜欢 的 工具 一 一 可 以 接受 许多 选项 ， 例 如 
可 以 用 WHERE 子 句 来 限制 需要 备份 哪些 行 。 

与 存储 引 警 无关。 因为 是 从 MySQL 服务 器 中 提取 数据 而 生成 ， 所 以 消除 了 底层 数 
据 存储 和 不 同 。 因 此 ， 可 以 从 InnoDB 表 中 备份 ， 然 后 只 需 极 小 的 工作 量 就 可 以 还 
原 到 MyISAM 表 中 。 而 对 于 原始 数据 却 不 能 这 么 做 。 

有 助 于 避免 数据 损坏 。 如 果 磁 盘 驱 动 器 有 故障 而 要 复制 原始 文件 时 ， 你 将 会 得 到 一 
个 错误 并 且 /或 生成 一 个 部 分 或 损坏 的 备份 。 如 果 MySQL 在 内 存 中 的 数据 还 没有 损 
坏 , 当 不 能 得 到 一 个 正常 的 原始 文件 复制 时 ,有 了 时 可 以 得 到 一 个 可 以 信赖 的 逻辑 备份 。 





必须 由 数据 库 服 务 器 完成 生成 逻辑 备份 的 工作 ， 因 此 要 使 用 更 多 的 CPU 周期 。 
逻辑 备份 在 其 些 场景 下 比 数据 库 文件 本 身 更 大 “。ASCII 形式 的 数据 不 总 是 和 存储 引 
擎 存储 数据 一 样 高 效 。 例 如 ， 一 个 整 型 需要 4 字 节 来 存储 ， 但 是 用 ASCII 写 入 时 ， 


可 能 需要 12 个 字符 。 当 然 也 可 以 压缩 文件 以 得 到 一 个 更 小 的 备份 文件 ， 但 这 样 会 使 


用 更 多 的 CPU 资源 。( 如 果 索 引 比较 多 ， 逻 辑 备份 一 般 要 比 物理 备份 小 。) 
无 法 保证 导出 后 再 还 原 出 来 的 一 定 是 同样 的 数据 。 浮 点 表示 的 问题 、 软 件 Bug 等 都 
会 导致 问题 ， 尽 管 非常 少见 。 

从 逻辑 备份 中 还 原 需要 MySQL 加 载 和 解释 语句 ， 转 化 为 存储 格式 ， 并 重建 索引 ， 
所 有 这 一 切 会 很 慢 。 


最 大 的 缺点 是 从 MySQL 中 导出 数据 和 通过 SQL 语句 将 其 加 载 回 去 的 开销 。 如 果 使 用 逻 
辑 备 份 ， 测 试 恢复 需要 的 时 间 将 非常 重要 。 


Percona Server 中 包含 的 mysqldump, TEIE InnoDB 表 时 能 起 到 帮助 作用 ， 因 为 它 会 对 
输出 格式 化 ， 以 便 在 重新 加 载 时 利用 InnoDB 的 快速 建 索 引 的 优点 。 我 们 的 测试 显示 这 
样 做 可 以 减少 2/3 甚至 更 多 的 还 原 时 间 。 索 引 越 多 ， 好 处 越 明 显 。 


4: 


以 我 们 的 经 验 ， 还 辑 备份 往往 比 物理 备份 要 小 许多 ， 但 也 并 不 总 是 如 此 。 


15.3 设计 MySQL 备 份 方案 | 599 


物理 备份 
物理 备份 有 如 下 好 处 : 


。 ”基于 文件 的 物理 备份 ， 只 需要 将 需要 的 文件 复制 到 其 他 地 方 即 可 完成 备份 。 不 需要 
其 他 额外 的 工作 来 生成 原始 文件 。 

。 ”物理 备份 的 恢复 可 能 就 更 简单 了 ， 这 取决 于 存储 引擎 。 对 于 MyISAM， 只 需要 简单 
地 复制 文件 到 目的 地 即 可 。 对 于 InnoDB 则 需要 停止 数据 库 服 务 ， 可 能 还 要 采取 其 
他 一 些 步 又 。 

e InnoDB 和 MyISAM 的 物理 备份 非常 容易 跨 平 台 、 操 作 系 统 和 MySQL hite. (EH 
导出 亦 如 此 。 这 里 特别 指出 这 一 点 是 为 了 消除 大 家 的 担心 。) 

。 ”从 物理 备份 中 恢复 会 更 快 ， 因 为 MySQL 服务 器 不 需要 执行 任何 SQL 或 构建 索引 。 
如 果 有 很 大 的 InnoDB 表 ,无 法 完全 缓存 到 内 存 中 , 则 物理 备份 的 恢复 要 快 非常 多 一 一 
至 少 要 快 一 个 数量 级 。 事 实 上 ， 逻 辑 备份 最 可 怕 的 地 方 就 是 不 确定 的 还 原 时 间 。 


物理 备份 也 有 其 缺 上 后 ， 比 如 : 


。 InnoDB 的 原始 文件 通常 比 相应 的 逻辑 备份 要 大 得 多 。InnoDB 的 表 空 间 往 往 包含 很 
多 未 使 用 的 空间 。 还 有 很 多 空间 被 用 来 做 存储 数据 以 外 的 用 途 ( 插 入 缓冲 , 回 滚 段 等 ) 。 

e 物理 备份 不 总 是 可 以 跨 平 台 、 操 作 系 统 及 MySQL 版本。 文件 名 大 小 写 敏 感 和 浮 点 
格式 是 可 能 会 遇 到 麻烦。 很 可 能 因 浮 点 格式 不 同 而 不 能 移动 文件 到 另 一 个 系统 ( 虽 
然 主流 处 理 器 都 使 用 IEEE 浮 点 格式 。) 


物理 备份 通常 更 加 简单 高 效 “。 尽 管 如 此 ， 对 于 需要 长 期 保留 的 备份 ， 或 者 是 满足 法 律 
合 规 要 求 的 备份 ， 尽量 不 要 完全 依赖 物理 备份 。 至 少 每 隔 一 段 时 间 还 是 需要 做 一 次 逻辑 


-备份 。 


除非 经 过 测试 ， 不 要 假定 备份 (特别 是 物理 备份 ) 是 正常 的 。 对 InnoDB 来 说 ， 这 意味 
着 需要 启动 一 个 MySQL 实例 ， 执 行 InnoDB 恢复 操作 ， 然 后 运行 CHECK TABLES, HT 
以 跳 过 这 一 操作 ， 仅 对 文件 运行 innochecksum， 但 我 们 不 建议 这 样 做 。 对 于 MyISAM, 
可 以 运行 CHECK TABLES, 或 者 使 用 mysglcheck。 使 用 mysqlcheck 可 以 对 所 有 的 表 执 行 
CHECK TABLES 操作 。 


> 


服务 器 实例 并 运行 mysqlcheck。 然 后 ， 周 期 性 地 使 用 mysqldump 执行 逻辑 备份 。 这 样 做 
可 以 获得 两 种 方法 的 优点 ， 不 会 使 生产 服务 器 在 导出 时 有 过 度 负担 。 如 果 能 够 方便 地 利 
用 文件 系统 的 快照 ， 也 可 以 生成 一 个 快照 ， 将 该 快照 复制 到 另外 一 个 服务 器 上 并 释放 ， 
然后 测试 原始 文件 ， 再 执行 逻辑 备份 。 


注 $: 值得 一 提 的 是 物理 备份 会 更 易 出 错 ; 很 难 像 mysqldump 一 样 简单 。 


600 | 第 15 章 备份 与 恢复 


15.3.3 备份 什么 


恢复 的 需求 决定 需要 备份 什么 。 最 简单 的 策略 是 只 备份 数据 和 表 定 义 ， 但 这 是 一 个 最 低 
的 要 求 。 在 生产 环境 中 恢复 数据 库 一 般 需 要 更 多 的 工作 。 下 面 是 MySQL 备份 需要 考虑 
AJL AK. 


非 显 著 数 据 

不 要 忘记 那些 容易 被 忽略 的 数据 : 例如 ， 二 进 制 日 志和 InnoDB 事务 日 志 。 

代码 
现代 的 MySQL 服务 器 可 以 存储 许多 代码 ， 例 如 触发 器 和 存储 过 程 。 如 果 备 份 了 
mysqtL 数 据 库 ， 那 么 大 部 分 这 类 代码 也 备份 了 ， 但 如 果 需 要 还 原单 个 业务 数据 库 会 
比较 麻烦 ， 因 为 这 个 数据 库 中 的 部 分 “数据 ”， 例 如 存储 过 程 ， 实 际 是 存放 在 mysql 
数据 库 中 的 。 

复制 配置 
如 果 恢 复 一 个 涉及 复制 关系 的 服务 器 ， 应 该 备份 所 有 与 复制 相关 的 文件 ， 例 如 二 
进 制 日 志 、 中 继 日 志 、 日 志 索 引文 件 和 .info 文件 。 至 少 应 该 包含 SHOW MASTER 
STATUS 和 /或 SHOW SLAVE STATUS 的 输出 。 执 行 FLUSH LOGS 也 非常 有 好 处 ， 可 以 让 
MySQL 从 一 个 新 的 二 进 制 日 志 开 始 。 从 日 志文 件 的 开头 做 基于 故障 时 间 点 的 恢复 要 
比 从 中 间 更 容易 。 

服务 器 配置 
假设 要 从 一 个 实际 的 灾难 中 恢复 ,比如 说 ,地 震 过 后 在 一 个 新 数据 中 心中 构建 服务 器 ， 
如 果 备 份 中 包含 服务 器 配置 ， 你 一 定 会 喜出望外 。 

选 定 的 操作 系统 文件 | 
对 于 服务 器 配置 来 说 ， 备 份 中 对 生产 服务 器 至 关 重 要 的 任何 外 部 配置 ， 都 十 分 重要 。 
在 UNIX 服务 器 上 ， 这 可 能 包括 cron 任务 、 用 户 和 组 的 配置 、 管 理 脚本 ， 以 及 sudo 
规则 。 


这 些 建议 在 许多 场景 下 会 被 当 作 “备份 一 切 ”。 然 而 ， 如 果 有 大 量 的 数据 ， 这 样 做 的 开 
销 将 非常 高 ， 如 何 做 备份 ， 需 要 更 加 明智 的 考虑 。 特 别 是 ， 可 能 需要 在 不 同 备 份 中 备份 
不 同 的 数据 。 例 如 ， 可 以 单独 地 备份 数据 、 二 进 制 日 志和 操作 系统 及 系统 配置 。 


增 量 备份 和 差异 备份 

当 数 据 量 很 庞大 时 ， 一 个 常见 的 策略 是 做 定期 的 增 量 或 差异 备份 。 它 们 之 间 的 区 别 有 氮 
容易 让 人 混淆 ， 所 以 先 来 滞 清 这 两 个 术语 : 差异 备份 是 对 目 上 次 全 备份 后 所 有 改变 的 部 
分 而 做 的 备份 ， 而 增 量 备份 则 是 目 从 任意 类 型 的 上 次 备份 后 所 有 修改 做 的 备份 。 


例如 ， 假 如 在 每 周 日 做 一 个 全 备份 。 在 周一 ， 对 目 周 日 以 来 所 有 的 改变 做 一 个 差异 备份 。 
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在 周二 ， 就 有 两 个 选择 : 备份 自 周 日 以 来 所 有 的 改变 〈 差 异 ) ， 或 只 备份 自从 周一 备份 
后 所 有 的 改变 HE). 


增 量 和 差异 备份 都 是 部 分 备份 : 它们 一 般 不 包含 完整 的 数据 集 ， 因 为 某 些 数据 几乎 肯 
定 没 有 改变 。 部 分 备份 对 减少 服务 器 开销 、 备 份 时 间 及 备份 空间 而 言 都 很 适合 。 尽 管 
某 些 部 分 备份 并 不 会 真正 减少 服务 器 的 开销 。 例 如 ，Percona XtraBackup #1 MySQL 
Enterprise Backup， 仍 然 会 扫描 服务 器 上 的 所 有 数据 块 ， 因 而 并 不 会 节约 太 多 的 开销 ， 
但 它们 确实 会 减少 一 定量 的 备份 时 间 和 大 量 用 于 压缩 的 CPU 时 间 ， 当 然 也 会 减少 磁盘 空 
间 使 用 5。 


不 要 因为 会 用 高 级 备份 技术 而 自负 ， 解 决 方案 越 复杂 ， 可 能 面临 的 风险 也 越 大 。 要 注意 
分 析 隐 藏 的 危险 ， 如 有 果 多 次 返 代 备份 紧密 地 耦合 在 一 起 ， 则 只 要 其 中 的 一 次 友 代 备份 有 
损坏 ， 就 可 能 会 导致 所 有 的 备份 都 无 效 。 


下 面 有 一 些 建议 : 


e 使 用 Percona XtraBackup #1 MySQL Enterprise Backup 中 的 增 量 备份 特性 。 

。 备份 二 进 制 日 志 。 可 以 在 每 次 备份 后 使 用 FLUSH LOGS 来 开始 一 个 新 的 二 进 制 日 志 ， 
这 样 就 只 需要 备份 新 的 二 进 制 日 志 。 

© 不 要 备份 没有 改变 的 表 。 有 些 存储 3 引擎， 例如 MyISAM， 会 记录 每 个 表 最 后 修改 时 
间 。 可 以 通过 查看 磁盘 上 的 文件 或 运行 SHOW TABLE STATUS 来 看 这 个 时 间 。 如 果 使 
用 InnoDB， 可 以 利用 触发 器 记录 修改 时 间 到 一 个 小 的 “最 后 修改 时 间 ” 表 中 ， 帮 助 
跟踪 最 新 的 修改 操作 。 需 要 确保 只 对 变更 不 频繁 的 表 进 行 跟踪 ， 这 样 才能 降低 开销 。 
通过 定制 的 备份 脚本 可 以 轻松 获取 到 哪些 表 有 变更 。 
例如 ， 如 果 有 包含 不 同 语种 各 个 月 的 名 称 列表 ， 或 者 州 或 区 域 的 简写 之 类 的 “查找 ” 
表 ， 将 它们 放 在 一 个 单独 的 数据 库 中 是 个 好 主意 ， 这 样 就 不 需要 每 次 都 备份 这 些 表 。 

。 不 要 备份 没有 改变 的 行 。 如 果 一 个 表 只 做 插入 ， 例 如 记录 网 页 页 面 点 击 的 表 ， 那 么 
可 以 增加 一 个 时 间 戳 的 列 ， 然 后 只 备份 自 上 次 备份 后 插入 的 行 。 

© 某 些 数据 根本 不 需要 备份 。 有 时候 这 样 做 影响 会 很 大 一 一 例如 ， 如 果 有 一 个 从 其 他 
数据 构建 的 数据 仓库 ， 从 技术 上 讲 完 全 是 元 余 的 ， 就 可 以 仅 备份 构建 仓库 的 数据 ， 
而 不 是 数据 仓库 本 身 。 即 使 从 源 数据 文件 重建 仓库 的 “恢复 ”时 间 较 长 ， 这 也 是 个 
好 想法 。 相 对 于 从 全 备 中 可 能 获得 的 快速 恢复 时 间 ， 避 免 备份 可 以 节约 更 多 的 总 的 
时 间 开 销 。 临 时 数据 也 可 以 不 用 备份 ， 例 如 保留 网 站 会 话 数据 的 表 。 

。 备份 所 有 的 数据 ， 然 后 发 送 到 一 个 有 去 重 特 性 的 目的 地 ， 例 如 ZFS 文件 管理 程序 。 


增 量 备 份 的 缺点 包括 增加 恢复 复杂 性 ， 额 外 的 风险 ， 以 及 更 长 的 恢复 时 间 。 如 果 可 以 做 


注 6 : Percona XtraBackup 正在 开发 "真正 的 " 增 量 备份 特性 。 它 将 能 够 备份 变更 的 块 ,而 不 需要 扫描 每 个 块 。 
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全 备 ， 考 虑 到 简便 性 ， 我 们 建议 尽量 做 全 备 。 


不 管 如 何 ， 还 是 需要 经 常 做 全 备份 一 建议 至 少 一 周一 次 。 你 肯定 不 会 希望 使 用 一 个 月 
的 所 有 增 量 备份 来 进行 恢复 。 即 使 一 周 也 还 是 有 很 多 的 工作 和 风险 的 。 


15.3.4 存储 引 警 和 一 致 性 
MySQL 对 存储 引擎 的 选择 会 导致 备份 明显 更 复杂 。 问 题 是 ， 对 于 给 定 的 存储 引擎 ， 如 
何 得 到 一 致 的 备份 。 


实际 上 有 两 类 一 致 性 需要 考虑 ; 数据 一 致 性 和 文件 一 致 性 。 


数据 一 致 性 
当 备 份 时 ， 应 该 考虑 是 否 需 要 数据 在 指定 时 间 点 一 致 。 例 如 ， 在 一 个 电子 商务 数据 库 中 ， 
可 能 需要 确保 发 货 单 和 付款 之 间 一 致 。 恢 复 付款 时 如 果 不 考 虑 相应 的 发 货 单 ， 或 反 过 来 ， 
都 会 导致 麻烦 。 


如 采 做 在 线 备份 《从 一 个 运行 的 服务 器 做 备份 )， 可 能 需要 所 有 相关 表 的 一 致 性 备份 。 
这 意味 着 不 能 一 次 锁 住 一 张 表 然后 做 备份 一 一 因而 意味 着 备份 可 能 比 预想 的 要 更 有 侵入 
性 。 如 采 使 用 的 不 是 事务 型 存储 引擎 ， 则 只 能 在 备份 时 用 LOCK TABLES 来 锁 住 所 有 要 一 
起 备份 的 表 ， 备 份 完成 后 再 释放 锁 。 


InnoDB 的 多 版 本 控制 功能 可 以 帮 到 我 们 。 开 始 一 个 事务 ， 转 储 一 组 相关 的 表 ， 然 后 提 
交 事 务 。( 如 果 使 用 了 事务 获取 一 致 性 备份 ， 则 不 能 用 LOCK TABLES， 因 为 它 会 隐 式 地 提 
区 事务 一 一 详情 参见 MySQL FW.) 只 要 在 服务 器 上 使 用 REPEATABLE READ 事务 隔离 级 
别 ， 并 且 没 有 任何 DDL， 就 一 定 会 有 完美 的 一 致 性 ， 以 及 基于 时 间 点 的 数据 快照 ， 且 在 
备份 过 程 中 不 会 阻塞 任何 后 续 的 工作 。 


尽管 如 此 ， 这 种 方法 并 不 能 保护 逻辑 设计 很 差 的 应 用 。 假 如 在 电子 商务 库 中 插入 一 条 付 
于 记录， 提交 事务 ， 然 后 在 另外 一 个 事务 中 插入 一 条 发 货 单 记录 。 备 份 过 程 可 能 在 这 两 
个 操作 之 间 开 始 ， 备 份 了 付款 记录 却 不 包括 发 货 单 记录 。 这 就 是 必须 仔细 设计 事务 以 确 
保 相关 的 操作 放 在 一 个 组 内 的 原因 。 


也 可 以 用 op 来 获得 InnoDB 表 的 一 致 性 逻辑 备份 ， 采 用 --single-transaction 选 
项 可 以 按照 我 们 所 描述 的 那样 工作 。 但 是 ， 这 可 能 会 导致 一 个 非常 长 的 事务 ， 在 某 些 负 
载 下 会 导致 开销 大 到 不 可 接受 。 
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文件 一 致 性 


每 个 文件 的 内 部 一 致 性 也 非常 重要 一 一 例如 ， 一 条 大 的 UPDATE 语句 执行 时 备份 反映 不 出 
文件 的 状态 一 一 并 且 所 有 要 备份 的 文件 相互 间 也 应 一 致 。 如 果 没 有 内 部 一 致 的 文件 ， 还 
原 时 可 能 会 感到 惊讶 (它们 可 能 已 经 损坏 )。 如 果 是 在 不 同 的 时 间 复 制 相 关 的 文件 ， 它 
们 彼此 可 能 也 不 一 致 。MyISAM 的 .MYD 和 .MYI 文件 就 是 个 例子 。InnoDB 如 果 检 测 到 
不 一 致 或 损坏 ， 会 记录 错误 日 志 乃 至 让 服务 器 崩溃。 


对 于 非 事 务 性 存储 引擎 ， 例 如 MyISAM， 可 能 的 选项 是 锁 住 并 刷新 表 。 这 意味 着 要 么 用 
LOCK TABLES 和 FLUSH TABLES 结合 的 方法 以 使 服务 器 将 内 存 中 的 变更 刷 到 磁盘 上 ， 要 么 


_ FA FLUSH TABLES WITH READ LOCK, 一旦 刷新 完成 ， 就 可 以 安全 地 复制 MyISAM 的 原始 


文件 。 


对 于 InnoDB， 确 保 文件 在 磁盘 上 一 致 更 困难 。 即 使 使 用 FLUSH TABLES WITH READ 
LOCK, InnoDB 依旧 在 后 台 运 行 : 插入 缓存 、 日 志和 写 线程 继续 将 变更 合并 到 日 志和 表 
空间 文件 中 。 这 些 线程 设计 上 是 异步 的 一 一 在 后 台 执 行 这 些 工作 可 以 帮助 InnoDB 取得 
更 高 的 并 发 性 一 一 正 因为 如 此 它们 与 LOCK TABLES 无 关 。 因 此 ， 不 仅 需 要 确保 每 个 文件 
内 部 是 一 致 的 ， 还 需要 同时 复制 同一 个 时 间 点 的 日 志和 表 空 间 文件 。 如 果 在 备份 时 有 其 
他 线程 在 修改 文件 ， 或 在 与 表 空 间 文件 不 同 的 时 间 点 备份 日 志文 件 ， 会 在 恢复 后 再 次 因 
系统 损坏 而 告终 。 可 以 通过 下 面 几 个 方法 规避 这 个 问题 。 


。 等待 直 到 InnoDB 的 清除 线程 和 插入 缓冲 合并 线程 完成 。 可 以 观察 SHOW INNODB 
STATUS 的 输出 ， 当 没有 脏 缓存 或 挂 起 的 写 时 ， 就 可 以 复制 文件 。 尽 管 如 此 ， 这 种 方 
法 可 能 需要 很 长 一 段 时 间 ; 因为 InnoDB 的 后 台 线 程 涉及 太 多 的 干扰 而 不 太 安 全 。 
所 以 我 们 不 推荐 这 种 方法 。 

。 在 一 个 类 似 LVM 的 系统 中 获取 数据 和 日 志文 件 一 致 的 快照 ， 必 须 让 数据 和 日 志文 
件 在 快照 时 相互 一 致 ; 单独 取 它 们 的 快照 是 没有 意义 的 。 在 本 章 后 续 的 LVM 快照 

中 会 讨论 。 

。 发送 一 个 STOP 信 号 给 MySQL， 做 备份 ， 然 后 再 发 送 一 个 CONT 信和 号 来 再 次 唤醒 
MySQL。 看 起 来 像 是 一 个 很 少 推荐 的 方法 ， 但 如 果 另 外 一 种 方法 是 在 备份 过 程 中 需 
要 关闭 服务 器 ， 则 这 种 方法 值得 考虑 。 至 少 这 种 技术 不 需要 在 重启 服务 器 后 预 热 。 


在 复制 数据 文件 到 其 他 地 方 后 ， 就 可 以 释放 锁 以 使 MySQL 服务 器 再 次 正常 运行 。 


复制 

从 备 库 中 备份 最 大 的 好 处 是 可 以 不 干扰 主 库 ， 避 免 在 主 库 上 增加 额外 的 负载 。 这 是 一 个 
建立 备 库 的 好 理由 ， 即 使 不 需要 用 它 做 负载 均衡 或 高 可 用 。 如 果 钱 是 个 问题 ， 也 可 以 把 
备份 用 的 备 库 用 于 其 他 用 途 ， 例 如 报表 服务 一 一 只 要 不 对 其 做 写 操作 ， 以 确保 备份 时 不 
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会 修改 数据 。 备 库 不 必 只 用 于 备份 的 目的 ， 只 需要 在 下 次 备份 时 能 及 时 跟 上 主 库 ， 即 使 
有 时 因 作 为 其 他 用 途 导 致 复制 延 时 也 没有 关系 。 | 


当 从 备 库 备份 时 ， 应 该 保存 所 有 关于 复制 进程 的 信息 ， 例 如 备 库 相 对 于 主 库 的 位 置 。 这 
对 于 很 多 情况 都 非常 有 用 : 克隆 新 的 备 库 ， 重 新 应 用 二 进 制 日 志 到 主 库 上 以 获得 指定 时 
间 点 的 恢复 ， 将 备 库 提升 为 主 库 等 。 如 果 停止 备 库 ， 需 要 确保 没有 打开 的 临时 表 ， 因 为 
它们 可 能 导致 不 能 重启 备 库 。 


故意 将 一 个 备 库 延 时 一 段 时间 对 于 某 些 灾难 场景 非常 有 用 。 例 如 延 时 复制 一 小 时 ， 当 
一 个 不 期 望 的 语句 在 主 库 上 运行 后 ， 将 有 一 个 小 时 的 时 间 观 察 到 并 在 从 中 继 日 志 重 放 
之 前 停 掉 复制 。 然 后 可 以 将 备 库 提升 为 主 库 ， 重 放 少 量 相关 的 日 志 事 件 ， 跳 过 错误 的 
语句 。 这 上 比 我 们 后 面 将 要 讨论 的 指定 时 间 点 的 恢复 技术 可 能 要 快 很 多 。Percona Toolkit 
中 pt-slave-delay 工具 可 以 帮助 实现 这 个 方案 。 


们 的 经 验 , 主 库 与 备 库 数据 不 匹配 是 很 常见 的 ,并 且 MySQL 没有 方法 检测 这 个 问题 。 
检测 这 个 问题 的 唯一 方法 是 使 用 Percona Toolkit 中 的 pt-table-checksum 之 类 的 工具 。 


拥有 一 个 复制 的 备 库 可 能 在 诸如 主 库 的 硬盘 烧 坏 时 提供 帮助 ， 但 却 不 能 提供 保证 。 
复制 不 是 备份 。 


| 备 库 可 能 与 主 库 数据 不 完全 一 样 。 许 多 人 认为 备 库 是 主 库 完 全 一 样 的 副本 ， 但 以 我 
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服务 器 的 二 进 制 日 志 是 备份 的 最 重要 因素 之 一 。 它 们 对 于 基于 时 间 点 的 恢复 是 必需 的 ， 
并 且 通 常 比 数据 要 小 ， 所 以 更 容易 进行 频繁 的 备份 。 如 果 有 某 个 时 间 点 的 数据 备份 和 所 
有 从 那 时 以 后 的 二 进 制 日 志 ， 就 可 以 重 放 自从 上 次 全 备 以 来 的 二 进 制 日 志 并 “前 滚 ”所 
有 的 变更 。 

MySQL 复制 也 使 用 二 进 制 日 志 。 因 此 备份 和 恢复 的 策略 经 常 和 复制 配置 相互 影响 。 

二 进 制 日 志 很 “特别 ”。 如 果 丢 失 了 数据 ， 你 一 定 不 希望 同时 丢失 了 二 进 制 日 志 。 为 了 
让 这 种 情况 发 生 的 几率 减少 到 景 小 ， 可 以 在 不 同 的 卷 上 保存 数据 和 二 进 制 日 志 。 即 使 在 


LVM 下 生成 二 进 制 日 志 的 快照 ， 也 是 可 以 的 。 为 了 额外 的 安全 起 见 ， 可 以 将 它们 保存 在 
SAN 上 , 或 用 DRBD 复制 到 另外 一 个 设备 上 。 


经 常备 份 二 进 制 日 志 是 个 好 主意 。 如 果 不 能 承受 丢失 超过 30 分 钟 数 据 的 价值 ， 至 少 要 
每 30 分 钟 就 备份 一 次 。 也 可 以 用 一 个 配置 --log_slave_update 的 只 读 备 库 ， 这 样 可 以 获 
得 额外 的 安全 性 。 备 库 上 日 志 位 置 与 主 库 不 匹配 ,但 找到 恢复 时 正确 的 位 置 并 不 难 。 最 后 ， 
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MySQL 5.6 版 本 的 mysqlbinlog 有 一 个 非常 方便 的 特性 ， 可 连接 到 服务 器 上 来 实时 对 二 
进 制 日 志 做 镜像 ， 比 起 运行 一 个 mysqld 实例 要 简单 和 轻便 。 它 与 老 版 本 是 向 后 兼容 的 。 


请 参考 第 8 章 和 第 10 章 中 我 们 推荐 的 关于 二 进 制 日 志 的 服务 器 配置 。 


15.4.1 二 进 制 日 志 格式 
二 进 制 日 志 包 含 一 系列 的 事件 。 每 个 事件 有 一 个 固定 长 度 的 头 ， 其 中 有 各 种 信息 ， 例 如 
当前 时 间 惟 和 默认 的 数据 库 。 可 以 使 用 mysqlbinlog 工具 来 查看 二 进 制 日 志 的 内 容 ， 打 
印 出 一 些 头 信息 。 下 面 是 一 个 输出 的 例子 。 

1 # at 277 
#071030 10:47:21 server id 3 end log pos 369 Query thread_id=13 exec_time=0 
error_code=0 


SET TIMESTAMP=1193755641/*!*/; 
4 insert into test(a) values(2)/*!*/; 


第 一 行 包含 日 志文 件 内 的 偏 移 字 节 值 (本 例 中 为 277)。 
第 二 行 包含 如 下 几 项 。 


NO 


Ww 


。 事件 的 日 期 和 时 间 ，MySQL 会 使 用 它们 来 产生 SET TIMESTAMP 语句 。 

© 原 服 务 器 的 服务 器 ID ， 对 于 防止 复制 之 间 无 限 循环 和 其 他 问题 是 非常 有 必要 的 。 

e end Log_pos， 下 一 个 事件 的 偏 移 字 节 值 。 该 值 对 一 个 多 语句 事务 中 的 大 部 分 事件 是 
不 正确 的 。 在 此 类 事务 过 程 中 ，MySQL 的 主 库 会 复制 事件 到 一 个 缓冲 区 ， 但 这 样 做 
的 时 候 它 并 不 知道 下 个 日 志 事件 的 位 置 。 | 

。 事件 类 型 。 本 例 中 的 类 型 是 Query， 但 还 有 许多 不 同 的 类 型 。 

© 原 服务 器 上 执行 事件 的 线程 ID， 对 于 审计 和 执行 CONNECTION_ID() 国 数 很 重要 。 

e exec time， 这 是 语句 的 时 间 惟 和 写 和 二进制 日 志 的 时 间 之 差 。 不 要 依赖 这 个 值 ， 因 

为 它 可 能 在 复制 落后 的 备 库 上 会 有 很 大 的 偏差 。 

在 原 服务 器 上 事件 产生 的 错误 代码 。 如 果 事 件 在 一 个 备 库 上 重 放 时 导致 不 同 的 错误 ， 

那么 复制 将 因 安 全 预警 而 失败 。 


后 续 的 行 包含 重 放 变 更 时 所 需 的 数据 。 用 户 自 定义 的 变更 和 任何 其 他 特定 设置 ， 例 如 当 
语句 执行 时 有 效 的 时 间 惟 ， 也 将 会 出 现在 这 里 。 


wa 
如 果 使 用 的 是 MySQL 5.1 中 基于 行 的 日 志 ， 事 件 将 不 再 是 SQL。 而 是 可 读 性 较 差 的 
| 43 |， 由 语句 对 表 所 做 变更 的 “镜像 ”。 
Yde 
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15.4.2 安全 地 清除 老 的 二 进 制 日 志 

需要 决定 日 志 的 过 期 策略 以 防止 磁盘 被 二 进 制 日 志 写 满 。 日 志 增 长 多 大 取决 于 负载 和 日 
志 格 式 (基于 行 的 日 志 会 导致 更 大 的 日 志 记 录 )。 我 们 建议 ， 如 果 可 能 ， 只 要 日 志 有 用 
就 尽 可 能 保留 。 保 留 日 志 对 于 设置 复制 、 分 析 服 务 器 负载 、 审 计 和 从 上 次 全 备 按 时 间 点 
进行 恢复 ， 都 很 有 帮助 。 当 决定 想 要 保留 日 志 多 久 时 ， 应 该 考虑 这 些 需 求 。 


一 个 常见 的 设置 是 使 用 expire log days 变量 来 告诉 MySQL 定期 清理 日 志 。 这 个 变量 
直到 MySQL 4.1 才 引入 ; 在 此 之 前 的 版 本 ， 必 须 手 动 清 理 二 进 制 日 志 。 因 此 ， 你 可 能 看 
到 一 些 用 类 似 下 面 的 cron 项 来 删除 老 的 二 进 制 日 志 的 建议 。 


00 * * * /usr/bin/find /var/log/mysql -mtime +N -name "mysql-bin.[0-9]*" | xargs rm 


尽管 这 是 在 MySQL 4.1 之 前 清除 日 志 的 唯一 办 法 ， 但 在 新 版 本 中 不 要 这 么 做 ! 用 rm 删 
除 日 志 会 导致 mysql-bin.index 状态 文件 与 磁盘 上 的 文件 不 一 致 ， 有 些 语句 ， 例 如 SHOW 
MASTER LOGS 可 能 会 受到 影响 而 悄然 失败 。 手 动 修改 mysql-bin.index 文件 也 不 会 修复 这 
个 问题 。 应 该 用 类 似 下 面 的 cron 命令 。 


00* * + /usr/bin/mysql -e "PURGE MASTER LOGS BEFORE CURRENT DATE - INTERVAL N DAY" 


expire logs days 设置 在 服务 器 启动 或 MySQL 切换 二 进 制 日 志 时 生效 ， 因 此 ， 如 果 二 
进 制 日 志 从 没有 增长 和 切换 ， 服 务 器 不 会 清除 老 条 目 。 KERRE RE 日 志 的 修改 时 
间 而 不 是 内 容 来 决定 哪个 文件 需要 被 清除 。 
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大 多 数 时候 ， 生 成 备份 有 好 的 也 有 差 的 方法 一 一 有 时 候 显而易见 的 方法 并 不 是 好 方法 。 
一 个 有 用 的 技巧 是 应 该 最 大 化 利用 网 络 、 磁 盘 和 CPU 的 能 力 以 尽 可 能 快 地 完成 备份 。 这 
是 一 个 需要 不 断 去 平衡 的 事情 ， 必 须 通过 实验 以 找到 “最 佳 平 衡 点 。 


15.5.1 生成 逻辑 备份 
对 于 逻辑 备份 ， 首 先 要 意识 到 的 是 它们 并 不 是 以 同样 方式 创建 的 。 实 际 上 有 两 种 类 型 的 
逻辑 备份 : SQL 导出 和 符号 分 隔 文 件 。 


SQL 导出 


SQL 导出 是 很 多 人 所 熟悉 的 ， 因 为 它们 是 mysqldump 默认 的 方式 。 nae 用 默认 选项 时 
出 一 个 小 表 将 产生 如 下 ANR) 输出 。 
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$ eu test t1 

-- [Version and host comments] 

/*140101 SET @OLD CHARACTER SET CLIENT= @@CHARACTER_SET CLIENT */; 
-- [More version- specific comments to save options for restore] 


-- Table structure for table `t1` 


DROP TABLE IF EXISTS `t1`; 
CREATE TABLE `t1` ( 
`a` int(11) NOT NULL, 
PRIMARY KEY (a`) 
) ENGINE=MyISAM DEFAULT CHARSET=latin1; 


-- Dumping data for table `t1` 


LOCK TABLES `t1` WRITE; 

/*!40000 ALTER TABLE `t1` DISABLE KEYS */; 
INSERT INTO `t1`ò VALUES (1); 

/*140000 ALTER TABLE `t1` ENABLE KEYS */; 
UNLOCK TABLES; 

/*!40103 SET TIME_ZONE=@OLD TIME ZONE */; 
/*140101 SET SQL MODE=@OLD SQL MODE */; 

-- [More option restoration] 


导出 文件 包含 表 结 构 和 数据 ， 均 以 有 效 的 SQL 命令 形式 写 出 。 文 件 以 设置 MYSQL 各 种 
选项 的 注释 开始 。 这 些 要 么 是 为 了 使 恢复 工作 更 高 效 ， 要 么 是 因为 兼容 性 和 正确 性 。 接 
下 来 可 以 看 到 表 结 构 ， 然 后 是 数据 。 最 后 ， 脚 本 重 置 在 导出 开始 时 变更 的 选项 。 


导出 的 输出 对 于 还 原 操作 来 说 是 可 执行 的 。 这 很 方便 ,但 mysqldump 默认 选项 对 于 生成 
一 个 巨大 的 备份 却 不 是 太 适 合 (后 续 我 们 会 深入 介绍 mysqldump 的 选项 )。 


mysqldump 不 是 生成 SQL 逻辑 备份 的 唯一 工具 。 例 如 ， 也 可 以 用 mydumper 或 
phpMyAdmin 工具 来 创建 "。 我 们 想 指 出 的 是 ， 不 是 某 一 个 特定 的 工具 有 多 大 的 问题 ， 
而 是 做 SQL 逻辑 备份 本 身 就 有 一 些 缺 点 。 下 面 是 主要 问题 点 : 


Schema 和 数据 存储 在 一 起 
如 果 想 从 单个 文件 恢复 这 样 做 会 非常 方便 ， 但 如 果 只 想 恢复 一 个 表 或 只 想 恢复 数据 
就 很 困难 了 。 可 以 通过 导出 两 次 的 方法 来 减缓 这 个 问题 一 一 一 次 只 导出 数据 ， 另 外 
一 次 只 导出 Schema 一 一 但 还 是 会 有 下 一 个 麻烦 。 

Bk SOL EA 
服务 器 分 析 和 执行 SQL 语句 的 工作 量 非常 大 ， 所 以 加 载 数据 时 会 非常 慢 。 

单个 巨大 的 文件 
大 部 分 文本 编辑 器 不 能 编辑 巨大 的 或 者 包含 非常 长 的 行 的 文件 。 尽 管 有 时 候 可 以 用 
MOITA aes BS —— PIA sed X grep 来 抽出 需要 的 数据 ， 但 保持 文件 小 型 化 





注 7: 请 不 要 用 Maatkit 的 mk-parallel-dump 和 mk-parallel-restore 工具 。 它 们 并 不 安全 。 
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仍然 是 更 合适 的 。 

逻辑 备份 的 成 本 很 高 
比 起 逻辑 备份 这 种 从 存储 引擎 中 读 取 数 据 然 后 通过 客户 端 / 服务 器 协议 发 送 结果 集 
的 方式 ， 还 有 其 他 更 高 效 的 方法 。 


这 些 限制 意味 着 SQL 导出 在 表 变 大 时 可 能 变 得 不 可 用 。 不 过 ， 还 有 另外 一 个 选择 : 导出 
数据 到 符号 分 隔 的 文件 中 。 


符号 分 隔 文件 备份 


可 以 使 用 SQL 命令 SELECT INTO OUTFILE 以 符号 分 隔 文件 格 式 创建 数据 的 逻辑 备份 。( 可 
以 用 mysqldump 的 --tab 选项 导出 到 符号 分 隔 文件 中 ) 。 符 号 分 隔 文件 包含 以 ASCI 展示 
的 原始 数据 ,没有 SQL .注释 和 列 名 。 下 面 是 一 个 导出 为 喜 号 分 隔 值 (CVS) 格式 的 例子 ， 
对 于 表格 形式 的 数据 来 说 这 是 一 个 很 好 的 通用 格式 。 


mysql> SELECT * INTO OUTFILE '/tmp/t1.txt' 
-> FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' 
-> LINES TERMINATED BY '\n' 
-> FROM test.t1; 


比 起 SQL 导出 文件 ， 符 号 分 隔 文件 要 更 紧凑 且 更 易于 用 命令 行 工 具 操 作 ， 这 种 方法 最 大 
的 优点 是 备份 和 还 原 速 度 更 快 。 可 以 和 导出 时 使 用 一 样 的 选项 ， 用 LOAD DATA INFILE 方 
法 加 载 数据 到 表 中 : 


mysql> |LOAD DATA INFILE '/tmp/t1.txt' 
-> INTO TABLE test.ti 
-> FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' 
-> LINES TERMINATED BY '\n'; 


下 面 这 个 非 正式 的 测试 演示 了 SQL 文件 和 符号 分 隔 文件 在 备份 和 还 原 上 的 速度 差异 。 在 
测试 中 ， 我 们 对 生产 数据 做 了 些 修改 。 导 出 的 表 看 起 来 像 下 面 这 样 : 


CREATE TABLE load test ( 
col1 date NOT NULL, 
col2 int NOT NULL, 
col3 smallint unsigned NOT NULL, 
col4 mediumint NOT NULL, 
col5 mediumint NOT NULL, 
col6 mediumint NOT NULL, 
col7 decimal(3,1) default NULL, 
col8 varchar(10) NOT NULL default '', 
col9 int NOT NULL, 
PRIMARY KEY (coli, col2) 
) ENGINE=InnoDB; 


这 张 表 有 1500 万 行 ， 占 用 近 700MB 的 磁盘 空间 。 表 15-1 对 比 了 两 种 备份 和 还 原 方法 
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的 性 能 。 可 以 看 到 测试 中 还 原 时 间 有 较 大 的 差异 。 
表 15-1: SQL 和 符号 分 隔 导出 所 用 的 备份 和 恢复 时 间 


Ak 导出 大 小 ”导出 时 间 FANH 
SQL 导出 727 MB 102 600 
符号 分 隔 导出 669 MB 86 301 


TT ET TT ~ 


但 是 SELECT INTO OUTFILE 方法 也 有 一 些 限制 。 


© 只 能 备份 到 运行 MySQL 服务 器 的 机 器 上 的 文件 中 。( 可 以 写 一 个 自 定义 的 SELECT 
INTO OUTFILE 程序 ， 在 读 取 SELECT 结果 的 同时 写 到 磁盘 文件 中 ， 我 们 已 经 看 到 有 
些 人 采用 这 种 方法 。) 

e 运行 MySQL 的 系统 用 户 必须 有 文件 目录 的 ERR, AAEH MySQL 服务 器 来 执 
行文 件 的 写 入 ， 而 不 是 运行 SQL 命令 的 用 户 。 

。 出 于 安全 原因 ， 不 能 覆盖 已 经 存在 的 文件 ， 不 管 文件 权限 如 何 。 

。 不 能 直接 导出 到 压缩 文件 中 。 

e 其 些 情况 下 很 难 进 行 正确 的 导出 或 导入 ， 例 如 非 标准 的 字符 集 。 


15.5.2 文件 系统 快照 


文件 系统 快照 是 一 种 非常 好 的 在 线 备 份 方法 。 支 持 快照 的 文件 系统 能 够 瞬间 创建 用 来 备 
份 的 内 容 一 致 的 镜像 。 支 持 快照 的 文件 系统 和 设备 包括 FreeBSD 的 文件 系统 、ZFS 文件 
系统 、GNU/Linux 的 逻辑 卷 管理 (LVM)， 以 及 许多 的 SAN 系统 和 文件 存储 解决 方案 ， 
例如 NetApp 存储 。 


不 要 把 快照 和 备份 相 混 淆 。 创 建 快照 是 减少 必须 持 有 锁 的 时 间 的 一 个 简单 方法 ; 释放 锁 
后 , 必须 复制 文件 到 备份 中 。 事 实 上 , 有 些 时 候 甚至 可 以 创建 InnoDB 快照 而 不 需要 锁定 。 
我 们 将 要 展示 两 种 使 用 LVM 来 对 InnoDB 文件 系统 做 备份 的 方法 ， 可 以 选择 最 小 化 锁 或 
零 锁 的 方案 。 


快照 对 于 特别 用 途 的 备份 是 一 个 非常 好 的 方法 。 一 个 例子 是 在 升级 过 程 中 遇 到 有 问题 而 
回 退 的 情况 。 可 以 在 升级 前 创建 一 个 镜像 ， 这 样 如 果 升 级 有 问题 ， 只 需要 回 滚 到 该 镜像 。 
可 以 对 任何 不 确定 和 有 风险 的 操作 都 这 么 做 ， 例 如 对 一 个 巨大 的 表 做 变更 〈 需 要 多 少时 
间 是 未 知 的 )。 


LVM 快照 是 如 何 工作 的 
LVM 使 用 写 时 复制 (copy-on-write) 的 技术 来 创建 快照 一 一 例如 ， 对 整个 卷 的 某 个 瞬间 
的 逻辑 副本 。 这 与 数据 库 中 的 MVCC 有 点 像 ， 不 同 的 是 它 只 保留 一 个 老 的 数据 版 本 。 
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注意 ， 我 们 说 的 不 是 物理 副本 。 逻 辑 副本 看 起 来 好 像 包 含 了 创建 快照 时 卷 中 所 有 的 数据 ， 
但 实际 上 一 开始 快照 是 不 包含 数据 的 。 相 比 复制 数据 到 快照 中 ，LVM 只 是 简单 地 标记 创 
建 快照 的 时 间 点 ， 然 后 对 该 快照 请 求 读数 据 时 ， 实 际 上 是 从 原始 卷 中 读 取 的 。 因 此 ， 初 
始 的 复制 基本 上 是 一 个 瞬间 就 能 完成 的 操作 ， 不 管 创建 快照 的 着 有 多 大 。 


当 原始 卷 中 某 些 数据 有 变化 时 ，LVM 在 任何 变更 写 和 之前， 会 复制 受 影 响 的 块 到 快照 预 
留 的 区 域 中 。LVM 不 保留 数据 的 多 个 “ 老 版 本 ”"， 因 此 对 原始 卷 中 变更 块 的 额外 写 入 并 
不 需要 对 快照 做 其 他 更 多 的 工作 。 换 句 话说， 对 每 个 块 只 有 第 一 次 写 和 人 才 会 导致 写 时 复 
制 到 预 留 的 区 域 。 


现在 ， 在 快照 中 请 求 这 些 块 时 ，LVM 会 从 复制 块 中 而 不 是 从 原始 卷 中 读 取 。 所 以 ， 可 以 
继续 看 到 快照 中 相同 时 间 点 的 数据 而 不 需要 阻塞 任何 原始 着。 图 15-1 描述 了 这 个 方案 。 


快照 会 在 dev 目录 下 创建 一 个 新 的 逻辑 卷 ， 可 以 像 挂 载 其 他 设备 一 样 挂 载 它 。 





图 15-1: 写 时 复制 技术 如 何 减少 单个 卷 快照 需要 的 大 小 


理论 上 讲 ， 这 种 技术 可 以 对 一 个 非常 大 的 卷 做 快照 ， 而 只 需要 非常 少 的 物理 存储 空间 。 
但 是 ， 必 须 设置 足够 的 空间 ， 保 证 在 快照 打开 时 ， 能 够 保存 所 有 期 望 在 原始 卷 上 更 新 的 
块 。 如 果 不 预 留 足 够 的 写 时 复制 空间 ， 当 快照 用 完 所 有 的 空间 后 ， 设 备 就 会 变 得 不 可 用 。 
这 个 影响 就 像 拔 出 一 个 外 部 设备 : 任何 从 设备 上 读 的 备份 工作 都 会 因 IO 错误 而 失败 。 


先决 条 件 和 配置 
创建 一 个 快照 的 消耗 几乎 微不足道 ， 但 还 是 需要 确保 系统 配置 可 以 让 你 获取 在 备份 瞬间 
的 所 有 需要 的 文件 的 一 致 性 副本 。 首 先 ， 确 保 系 统 满足 下 面 这 些 条 件 。 
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e 所 有 的 InnoDB 文件 (InnoDB 的 表 空 间 文 件 和 InnoDB 的 事务 日 志 ) 必须 是 在 单个 
逻辑 卷 (分 区 )。 你 需要 绝对 的 时 间 点 一 致 性 ，LVM 不 能 为 多 于 一 个 卷 做 某 个 时 间 
点 一 致 的 快照 。( 这 是 LVM 的 一 个 限制 ， 其 他 一 些 系统 没有 这 个 问题 。) 

。 ”如 果 需 要 备份 表 定义 ，MySQL 数据 目录 必须 在 相同 的 逻辑 卷 中 。 如 果 使 用 另外 一 种 
方法 来 备份 表 的 定义 ， 例 如 只 备份 Schema 到 版 本 控制 系统 中 ， 就 不 需要 担心 这 个 
问题 。 

。 必须 在 卷 组 中 有 足够 的 空闲 空间 来 创建 快照 。 需 要 多 少 取决 于 负载 。 当 配置 系统 时 ， 
应 该 留 一 些 未 分 配 的 空间 以 便 后 面 做 快照 。 


LVM 有 卷 组 的 概念 , 它 包含 一 个 或 多 个 逻辑 卷 。 可 以 按照 如 下 的 方式 查看 系统 中 的 卷 组 : 


# vgs 

VG #PV #LV #SN Attr VSize VFree 

vg 1 4 0 wz--n- 534.18G 249.186 

输出 显示 了 一 个 分 布 在 一 个 物理 卷 上 的 卷 组 , 它 有 四 个 逻辑 卷 , ABA 250GB 空间 空闲 。 
如 果 需 要 ， 可 用 vedisplay 命令 产生 更 详细 的 输出 。 现 在 让 我 们 看 一 下 系统 上 的 逻辑 卷 : 


LV VG Attr LSize Origin Snap% Move Log Copy% 
home vg -wi-ao 40.00G 
mysql vg -wi-ao 225.00G 
tmp vg -wi-ao 10.00G 
var vg -wi-ao 10.006 
输出 显示 mysql 444 225GB 的 空间 。 设 备 名 是 /dev/vg/mysqL。 这 仅 是 个 名 字 ， 尽 管 看 
起 来 像 一 个 文件 系统 路 径 。 更 加 让 人 困惑 的 是 ， 还 有 个 符号 链接 从 相同 名 字 的 文件 链 到 
/dev/mapper/vg-mysql NZEA, M ls 和 mount 命令 可 以 观察 到 。 
# ls -1 /dev/vg/mysql 
lrwxrwxrwx 1 root root 20 Sep 19 13:08 /dev/vg/mysql -> /dev/mapper/vg-mysql 


# mount | grep mysql 
/dev/mapper/vg-mysql on /var/lib/mysql 


有 了 这 个 信息 ， 就 可 以 创建 文件 系统 快照 了 。 


创建 、 挂 载 和 删除 LVM 快照 

一 条 命令 就 能 创建 快照 。 只 需要 决定 快照 存放 的 位 置 和 分 配给 写 时 复制 的 空间 大 小 即 可 。 
不 要 纠结 于 是 否 使 用 比 想象 中 的 需求 更 多 的 空间 。 LVM 不 会 马上 使 用 完 所 有 指定 的 空间 ， 
只 是 为 后 续 使 用 预 留 而 已 。 因 此 多 预 留 一 点 空间 并 没有 坏处 ， 除 非 你 必须 同时 为 其 他 快 
照 预 留 空 间 。 


让 我 们 来 练习 创建 一 个 快照 。 我 们 给 它 16GB 的 写 时 复制 空间 ， 名 字 为 backup mysal. 
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# lvcreate --size 16G --snapshot --name backup mysql /dev/vg/mysql 
Logical volume “backup mysql" created 


Pe 


这 里 特意 命名 为 backup mysql 卷 而 不 是 mysqL_backup， 是 为 了 避免 Tab 键 自动 补 全 
。 造 成 误会 。 这 有 助 于 避免 因为 Tab 键 自动 补 全 导致 突然 误 删除 mysql 卷 组 的 可 能 。 





AE UERN TA A ae 
# lvs i 

LV VG Attr LSize Origin Snap% Move Log Copy% 
backup mysql vg swi-a- 16.00G mysql 0.01 

home vg -wi-ao 40.00G 

mysql vg owi-ao 225.00G 

tmp vg -wi-ao 10.00G 

var ` vg -wi-ao 10.006 


可 以 注意 到 ， 快 照 的 属性 与 原 设备 不 同 ， 而 且 该 输出 还 显示 了 一 点 额外 的 信息 : 原始 卷 
组 和 分 配 了 16GB 的 写 时 复制 空间 目前 已 经 使 用 了 多 少 。 备 份 时 对 此 进行 监控 是 个 非常 
好 的 主意 ， 可 以 知道 是 否 会 因为 设备 写 满 而 备份 失败 。 可 以 交互 地 监控 设备 的 状态 ， 或 
使 用 诸如 Nagios 这 样 的 监控 系统 。 


# watch ‘lvs | grep backup’ 


从 前 面 mount 的 输出 可 以 看 到 ，mysqt 卷 包含 一 个 文件 系统 。 AERA 快照 也 同样 如 此 ， 
可 以 像 其 他 文件 系统 一 样 挂 载 。 
# nkdir /tmp/backup 


# mount /dev/mapper/vg-backup_mysql /tmp/backup 
# ls -1 /tmp/backup/mysql 


total 5336 

-IW-I-~--- 1 mysql mysql 0 Nov 17 2006 columns priv.MYD 
-IW-I----- 1 mysql mysql 1024 Mar 24 2007 columns_priv.MYI 
-Yw-I-~--- 1 mysql mysql 8820 Mar 24 2007 columns_priv.frm 
-IW-I----- 1 mysql mysql 10512 Jul 12 10:26 db.MYD 
-rw-r----- 1 mysql mysql 4096 Jul 12 10:29 db.MYI 
-rw-r----- 1 mysql mysql 9494 Mar 24 2007 db.frm 


. omitted ... 
BREA SHR, ARMM BIKT RBI remove 命令 将 其 删除 。 


# umount /tmp/backup 
# rmdir /tmp/backup 
# lvremove --force /dev/vg/backup_mysql 
Logical volume “backup mysql" successfully removed 
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用 于 在 线 备 份 的 LVM 快照 

现在 已 经 知道 如 何 创建 、 加 载 和 删除 快照 ， 可 以 使 用 它们 来 进行 备份 了 。 首 先 看 一 下 如 
何在 不 停止 MySQL 服务 的 情况 下 备份 InnoDB 数据 库 ， 这 里 需要 使 用 一 个 全 局 的 读 锁 。 
连接 MySQL 服务 器 并 使 用 一 个 全 局 读 锁 将 表 刷 到 磁盘 上 ， 然 后 获取 二 进 制 日 志 的 位 置 : 


mysql> FLUSH TABLES WITH READ LOCK; SHOW MASTER STATUS; 


记录 SHOW MASTER STATUS 的 输出 ， 确 保 到 MySQL 的 连接 处 于 打开 状态 ， 以 使 读 锁 不 被 
释放 。 然 后 获取 LVM 的 快照 并 立刻 释放 该 读 锁 ， 可 以 使 用 UNLOCK TABLES 或 者 直接 
关闭 连接 来 释放 锁 。 最 后 ， 加 载 快照 并 复制 文件 到 备份 位 置 。 


这 种 方法 最 主要 的 问题 是 ， 获 取 读 锁 可 能 需要 一 点 时 间 ， 特 别 是 当 有 许多 长 时 间 运 行 的 
查询 时 。 当 连接 等 待 全 局 读 锁 时 ， 所 有 的 查询 都 将 被 阻塞 ， 并 且 不 可 预测 这 会 持续 多 久 。 


文件 系统 快照 和 InnoDB 


即使 锁 住 所 有 的 表 ，InnoDB 的 后 台 线 程 仍 会 继续 工作 ， 因 此 ， 即 使 在 创建 快照 时 ， 
仍然 可 以 往 文件 中 写 入 。 并 有 全， 由 于 InnoDB 没有 执行 关闭 操作 ， 如 果 服 务 器 意外 
断 电 ， 快 照 中 InnoDB 的 文件 会 和 服务 器 意外 挤 电 后 文件 的 道 遇 一 样 。 


这 不 是 什么 问题 ， 因 为 InnoDB 是 个 ACID A. AITITA (例如 快照 时 )， 每 
个 提交 的 事务 要 么 在 InnoDB 数据 文件 中 要 么 在 日 志文 件 中 。 在 还 原 快 照 后 启动 
MySQL 时 ，InnoDB 将 运行 恢复 进程 ， 就 像 服务 器 断 过 电 一 样 。 它 会 查找 事务 日 
志 中 任何 提交 但 没有 应 用 到 数据 文件 中 的 事务 然后 应 用 ， 因 此 不 会 丢失 任何 事务 。 
这 正 是 要 强制 InnoDB 数据 文件 和 日 志文 件 在 一 起 快照 的 原因 。 


这 也 是 在 备份 后 需要 测试 的 原因 。 启 动 一 个 MySQL 实例 ， 把 它 指 向 一 个 新 备份 ， 
让 InnoDB 执行 衣 演 恢复 过 程 ， 然 后 检测 所 有 的 表 。 通 过 这 种 方法 ， 就 不 会 备份 损 
坏 了 却 还 不 知道 (文件 可 能 由 于 任何 原因 损坏 )。 这 么 做 的 另外 一 个 好 处 是 ， 未 来 
需要 从 备份 中 还 原 时 会 更 快 ， 因 为 已 经 在 备份 上 运行 过 一 遍 恢 复 程 序 了 。 


昔 至 还 可 以 在 将 快照 复制 到 备份 目的 地 之 前 ， 直接 在 快照 上 做 上 面 的 操作 ， 但 增加 
一 点 点 额外 开销 。 所 以 需要 确保 这 是 计划 内 的 操作 。( 后 面 会 有 更 多 说 明 。) 





使 用 LVM 快照 无 锁 InnoDB 备份 


无 锁 备 份 只 有 一 点 不 同 。 区 别 是 不 需要 执行 FLUSH TABLES WITH READ LOCK。 这 意味 着 
不 能 保证 MyISAM 文件 在 磁盘 上 一 致 ， 如 果 只 使 用 InnoDB， 这 就 不 是 问题 。mysql 系 
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统 数 据 库 中 依然 有 部 分 MyISAM 表 ， 但 如 果 是 典型 的 工作 负载 ， 在 快照 时 这 些 表 不 太 可 
能 发 生 改 变 。 


如 采 你 认为 mysql 系统 表 可 能 会 变更 ， 那 么 可 以 锁 住 并 刷新 这 些 表 。 一 般 不 会 对 这 些 表 
有 长 时 间 运 行 的 查询 ， 所 以 通常 会 很 快 。 


mysql> LOCK TABLES mysql.user READ, mysql.db READ, ...; 
mysql> FLUSH TABLES mysql.user, mysql.db, ...; 


由 于 没有 用 全 局 读 锁 ， 因 此 不 会 从 SHOW MASTER STATUS 中 获取 到 任何 有 用 的 信息 。 尽 管 
如 此 ， 基 于 快照 启动 MySQL (来 验证 备份 的 完整 性 ) 时 ， 也 将 会 在 日 志文 件 中 看 到 像 
下 面 的 内 容 。 

InnoDB: Doing recovery: scanned up to log sequence number 0 40817239 

InnoDB: Starting an apply batch of log records to the database... 

InnoDB: Progress in percents: 3 4 5 6 ...[omitted]... 97 98 99 

InnoDB: Apply batch completed 

InnoDB: Last MySQL binlog file position 0 3304937, file name 

/var/log/mysq1/mysql-bin.000001 

070928 14:08:42 InnoDB: Started; log sequence number 0 40817239 
InnoDB 记录 了 MySQL 已 经 恢复 的 时 间 点 对 应 的 二 进 制 日 志 位 置 。 这 个 二 进 制 日 志 位 置 
可 以 用 来 做 基于 时 间 点 的 恢复 。 


使 用 快照 进行 无 锁 备 份 的 方法 在 MySQL 5.0 或 更 新 版 本 中 有 变动 。 这 些 MySQL 版 本 使 
用 XA 来 协调 InnoDB 和 二 进 制 日 志 。 如 果 还 原 到 一 个 与 备份 时 server_id 不 同 的 服务 器 ， 
服务 器 在 准备 事务 阶段 可 能 发 现 这 是 从 另外 一 个 与 自己 有 不 同 ID 的 服务 器 来 的 。 在 这 
种 情况 下 ,服务 器 会 变 得 困惑 ,恢复 事务 时 可 能 会 卡 在 PREPARED 状态 。 这 种 情况 很 少 发 生 ， 
但 是 存在 可 能 性 。 这 也 是 只 有 经 过 验证 才 可 以 说 备份 成 功 的 原因 。 有 些 备份 也 许 是 不 能 
恢复 的 。 


如 果 是 在 备 库 上 获取 快照 ，InnoDB 恢复 时 还 会 打印 如 下 几 行 日 志 。 


InnoDB: In a MySQL replica the last master binlog file 
InnoDB: position 0 115, file name mysql-bin.001717 


输出 显示 了 InnoDB 已 经 恢复 的 基于 主 库 的 二 进 制 日 志 位 置 (相对 于 备 库 二 进 制 日 志 位 
置 ) ， 这 对 于 基于 备 库 备份 或 基于 其 他 备 库 克隆 备 库 来 说 非常 有 用 。 


规划 LVM 备份 


LVM 快照 备份 也 是 有 开销 的 。 服 务 器 写 到 原始 卷 的 越 多 ， 引 发 的 额外 开销 也 越 多 。 当 服 
务 器 随机 修改 许多 不 同 块 时 ， 磁 头 需要 目 写 时 复制 空间 来 来 回回 寻 址 ， 并 且 将 数据 的 老 
版 本 写 到 写 时 复制 空间 。 从 快照 中 读 取 也 有 开销 ， 因 为 LVM 需要 从 原始 卷 中 读 取 大 部 
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分 数据 。 只 有 快照 创建 后 修改 过 的 数据 从 写 时 复制 空间 读 取 , 因此 ， 逻 辑 顺 序 读 取 快 照 
数据 实际 上 也 可 能 导致 磁头 来 回 移动 。 


所 以 应 该 为 此 规划 好 快照 。 快 照 实 际 上 会 导致 原始 卷 和 快照 都 比 正常 的 读 / 写 性 能 要 
差 一 一 如 果 使 用 过 多 的 写 时 复制 空间 ， 性 能 可 能 会 差 很 多 。 这 会 降低 MySQL 服务 器 和 
复制 文件 进行 备份 的 性 能 。 我 们 做 了 基准 测试 ， 发 现 LVM 快照 的 开销 要 远 高 于 它 本 应 . 
该 有 的 一 一 我 们 发 现 性 能 最 多 可 能 会 慢 5 倍 ， 有 具体 取决 于 负载 和 文件 系统 。 在 规划 备份 
时 要 记得 这 一 所。 


规划 中 另外 一 个 重要 的 事情 是 ， 为 快照 分 配 足够 多 的 空间 。 我 们 一 般 采 取 下 面 的 方法 。 


e ict, LVM 只 需要 复制 每 个 修改 块 到 快照 一 次 。MySQL 写 一 个 块 到 原始 卷 中 时 ， 
它 会 复制 这 个 块 到 快照 中 ， 然 后 对 复制 的 块 在 例外 表 中 生成 一 个 标记 。 后 续 对 这 个 
块 的 写 不 会 产生 任何 到 快照 的 复制 。 

e 如 果 只 使 用 InnoDB， 要 考虑 InnoDB 是 如 何 写 数据 的 。InnoDB 实际 需要 对 数据 写 
两 遍 ， 至 少 一 半 的 InnoDB 的 写 IO 会 到 双 写 缓冲 (doublewrite buffer)、 日 志文 件 ， 
以 及 其 他 磁盘 上 相对 小 的 区 域 中 。 这 部 分 会 多 次 重用 相同 的 磁盘 块 ， 因 此 第 一 次 时 
对 快照 有 影响 ， 但 写 过 一 次 以 后 就 不 会 对 快照 带 来 写 压力 。 

© 接 下 来 ， 相 对 于 反复 修改 同样 的 数据 ， 需 要 评估 有 多 少 I/O 需要 写 入 到 那些 还 没有 
复制 到 快照 写 时 复制 空间 的 块 中 ， 对 评估 的 结果 要 保留 足够 的 余 量 。 

。 使 用 vmstat 或 iostat 来 收集 服务 器 每 秒 写 多 少 块 的 统计 信息 。 

。 衡量 (或 评估 ) 复制 备份 到 其 他 地 方 需要 多 和 久 。 换 言 之 ， 需 要 在 复制 期 间 保持 LVM 
快照 打开 多 长 时 间 。 


假设 评估 出 有 一 半 的 写 会 导致 往 快照 的 写 时 复制 空间 的 写 操作 ， 并 且 服 务 器 支持 10MB/ 
s 的 写 人 。 如 果 需 要 一 个 小 时 (3600s) 将 快照 复制 到 另外 一 个 服务 器 上 ， 那 么 将 需要 
1/2 x 10MB x 3600 即 18GB 的 快照 空间 。 考 虑 到 容错 ， 还 要 增加 一 些 额 外 的 空间 。 


有 时 候 当 快照 保持 打开 时 ， 很 容易 计算 会 有 多 少数 据 发 生 改 变 。 让 我 们 看 个 例子 。 
BoardReader 论坛 搜索 引擎 每 个 存储 节点 有 约 1TB 的 InnoDB 表 。 但 是 ， 我 们 知道 最 大 
的 开销 是 加 载 新 数据 。 每 天 新 增 近 10GB 的 数据 ， 因 此 50GB 的 快照 空间 应 该 完全 足够 。 
然而 这 样 来 评估 并 不 总 是 正确 的 。 假 设 在 某 个 时 间 点 ， 有 一 个 长 时 间 运 行 的 依次 修改 每 
个 分 片 的 ALTER TABLE 操作 ， 它 会 修改 超过 50GB 的 数据 ; 在 这 个 时 间 点 ， 就 不 能 做 备 





份 操作 。 为 了 避免 这 样 的 问题 ， 可 以 稍 后 再 创建 快照 ， 因 为 创建 快照 后 会 导致 一 个 负载 


的 高 峰 。 
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备份 误区 2: 快照 就 是 备份 


一 个 快照 ， 不 论 是 LVM 快照 、ZFS 快照 ， 还 是 SAN 快照 ， 都 不 是 实际 的 备份 ， 
因为 它 不 包含 数据 的 完整 副本 。 正 因为 快照 是 写 时 复制 的 ， 所 以 它 只 包含 实际 数据 


和 快照 发 生 的 时 间 点 的 数据 之 间 的 差异 数据 。 如 果 一 个 没有 被 修改 的 块 在 备份 副本 
时 被 损坏 ， 那 就 没有 该 块 的 正常 副本 可 以 用 来 恢复 ， 并 且 备 份 副本 时 每 个 快照 看 到 
的 都 是 相同 的 损坏 的 块 。 可 以 使 用 快照 来 “冻结 ”备份 时 的 数据 ， 但 不 要 把 快照 当 
作 一 个 备份 。 





快照 的 其 他 用 途 和 蔡 代 方案 aa 
快照 有 更 多 的 其 他 用 途 ， 而 不 仅仅 用 于 备份 。 例 如 ， 之 前 提 和 到， 在 一 个 有 潜在 危险 的 动 

作 之 前 生成 一 个 “检查 点 ”会 有 帮助 。 有 些 系统 允许 将 快照 提升 为 原文 件 系 统 ， 这 使 得 

回 滚 到 生成 快照 的 时 间 点 的 数据 非常 简单 。 


文件 系统 快照 不 是 取得 数据 瞬间 副本 的 唯一 方法 。 另 外 一 个 选择 是 RAID 分 裂 : 举 个 例 
子 , 如 果 有 一 个 三 磁盘 的 软 RAID 镜像 ,就 可 以 从 该 RAID 组 中 移出 来 一 个 磁盘 单独 加 载 。 
这 样 做 没有 写 时 复制 的 代价 ， 并 且 需 要 时 将 此 类 “快照 ”提升 为 主 副本 的 操作 也 很 简单 。 
不 错 ,如 果 要 将 磁盘 加 回 到 RAID 集合 ,就 必须 重新 进行 同步 。 当 然 , 天 下 没有 免费 的 午餐 。 


15.6 从 备份 中 恢复 
如 何 恢复 数据 取决 于 是 怎么 备份 的 。 可 能 需要 以 下 部 分 或 全 部 步 又 。 


。 停止 MySQL 服务 器 。 

。 ”记录 服务 器 的 配置 和 文件 权限 。 

e。 将 数据 从 备份 中 移 到 MySQL 数据 目录 。 

。 改变 配置 。 

。 ”改变 文件 权限 。 

。 ”以 限制 访问 模式 重启 服务 器 ， 等 待 完成 启动 。 
© 载 和 逻辑 备份 文件 。 

。 ”检查 和 重 放 二 进 制 日 志 。 

。 ”检测 已 经 还 原 的 数据 。 

。 ”以 完全 权限 重启 服务 器 。 


我 们 在 接 下 来 的 章节 中 将 演示 这 些 步骤 的 具体 操作 。 我 们 也 会 对 本 庙 及 本 章 后 面 几 市 提 
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及 的 一 些 特殊 的 备份 方法 和 工具 做 一 些 解释 。 


包含 二 进 制 日 志 ， 并 且 需 要 重 放 这 些 日 志 来 做 基于 时 间 点 的 恢复 ， 那 么 不 要 把 当前 
二 进 制 日 志 用 备份 中 的 老 的 副本 替代 。 如 果 有 需要 ， 可 以 将 其 重 命名 或 移动 到 其 他 
地 方 。 


| 如 采 有 机 会 使 用 文件 的 当前 版 本 ， 就 不 要 用 备份 中 的 文件 来 代替 。 例 如 ， 如 果 备 份 


在 恢复 过 程 中 ， 保 证 MySQL 除了 恢复 进程 外 不 接受 其 他 访问 ， 这 一 点 往往 比较 重要 。 
我 们 喜欢 以 --skip-networking 和 --socket=/tmp/mysql_recover.sock 选项 来 局 动 MySQL, 
以 确保 它 对 于 已 经 存在 的 应 用 不 可 访问 ， 直 到 我 们 检测 完 并 重新 提供 服务 。 这 对 于 按 块 
加 载 的 逻辑 备份 的 恢复 来 说 尤其 重要 。 


15.6.1 恢复 物理 备份 
恢复 物理 备份 往往 非常 直接 一 一 换言之 ,没有 太 多 的 选项 。 这 可 能 是 好 事 , 也 可 能 是 坏事 ， 
具体 取决 于 恢复 的 需求 。 一 般 过 程 是 简单 地 复制 文件 到 正确 位 置 。 


是 否 需 要 关闭 MySQL 取决 于 存储 引擎 。MyISAM 的 文件 一 般 相 互 独 立 ， 即 使 服务 器 
正在 运行 ， 简 单 地 复制 每 个 表 的 .frm、.MYI 和 .MYD 文件 也 可 以 正常 操作 。 一 旦 有 任 
何 对 此 表 的 查询 ， 或 者 其 他 会 导致 服务 器 访问 此 表 的 操作 (例如 ， 执 行 SHOW TABLES), 
MySQL 都 会 立刻 找到 这 些 表 。 如 果 在 复制 这 些 文件 时 表 是 打开 的 ， 可 能 会 有 麻烦 ， 因 
此 操作 前 要 么 删除 或 重 命 名 该 表 ， 要 么 使 用 LOCK TABLES 和 FLUSH TABLES 来 关闭 它 。 


‘InnoDB 的 情况 有 所 不 同 。 如 果 用 传统 的 InnoDB 的 步骤 来 还 原 ， 即 所 有 表 都 存储 在 单个 


空间 ， 就 必须 关闭 MySQL， 复 制 或 移动 文件 到 正确 位 置 上 ， 然 后 重启 。 同 样 也 需要 
InnoDB 的 事务 日 志文 件 与 表 空 间 文件 匹配 。 如 果 文 件 不 匹配 一 一 例如 ， 替 换 了 表 空 间 
文件 但 没有 替换 事务 日 志文 件 一 一 InnoDB 将 会 拒绝 启动 。 这 也 是 将 日 志和 数据 文件 一 
起 备份 非常 关键 的 一 个 原因 。 





如 果 使 用 InnoDB file-per-table 特性 (innodb file per table), InnoDB 会 将 每 个 表 的 数 
据 和 索引 存储 于 一 个 ibd 文件 中 ， 这 就 像 MyISAM 的 .MYI 和 .MYD 文件 合 在 一 起 。 可 
以 在 服务 器 运行 时 通过 复制 这 些 文件 来 备份 和 还 原单 个 表 ， 但 这 并 不 像 MyISAM 中 那 
样 简单 。 这 些 文件 并 不 完全 独立 于 InnoDB., EA .ibd 文件 都 有 一 些 内 部 的 信息 ， 保 在 
着 它 与 主 (共享 ) 表 空 间 之 间 的 关系 。 在 还 原 这 样 的 文件 时 ， 需 要 让 InnoDB 先 “ 导 入 ” 
这 个 文件 。 


这 个 过 程 有 许多 的 限制 ， 如 果 有 需要 可 以 阅读 MySQL 用 户 手 册 中 关于 每 个 表 使 用 独立 
表 空 间 中 的 部 分 。 最 大 的 限制 是 只 能 在 当初 备份 的 服务 器 上 还 原单 个 表 。 用 这 种 配置 来 
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Ta, | 
ee Percona Server 和 Percona XtraBackup 有 一 些 改进 ,放宽 了 部 分 关于 这 个 过 程 的 限制 ， 
4, 例如 同一 服务 器 的 限制 。 


所 有 这 些 复 杂 度 意味 着 还 原 物 理 备 份 会 非常 乏味 ， 并 且 容 易 出 错 。 一 个 好 的 值得 倡导 的 
规则 是 ， 恢 复 过 程 越 难 越 复杂 ， 也 就 越 需要 届 辑 备份 的 保护 。 为 了 防止 一 些 无 法 意料 的 
情况 或 者 某 些 无 法 使 用 物理 备份 的 场景 ， 准 备 好 逻辑 备份 总 是 值得 推荐 的 。 


还 原 物理 备份 后 启动 MySQL 
在 启动 正在 恢复 的 MySQL 服务 器 之 前 ， 还 有 些 步 又 要 做 。 
首先 ， 最 重要 且 最 容易 忘记 的 事情 ， 是 在 启动 MySQL 服务 器 之 前 检查 服务 器 的 配置 ， 
确保 恢复 的 文件 有 正确 的 归属 和 权限 。 这 些 属性 必须 完全 正确 ， 否 则 MySQL 可 能 无 法 
启动 。 这 些 属性 因 系 统 的 不 同 而 不 同 ， 因 此 要 仔细 检查 是 否 和 之 前 做 的 记录 吻合 。 一 般 
都 需要 mysa 用 户 和 组 拥有 这 些 文件 和 目录 ， 并 且 只 有 这 个 用 户 和 组 拥有 可 读 / 写 权限 。 | 
建议 观察 MySQL 启动 时 的 错误 日 志 。 在 UNIX 类 系统 上 ， 可 以 如 下 观察 文件 。 

$ tail -f /var/log/mysql/mysql.err 
注意 错误 日 志 的 准确 位 置 会 有 所 不 同 。 一 旦 开始 监测 文件 ， 就 可 以 启动 MySQL 服务 器 
并 监测 错误 。 如 果 一 切 进展 顺利 ，MySQL 启动 后 就 有 一 个 恢复 好 的 数据 库 服务 器 了 。 


观察 错误 日 志 对 于 新 的 MySQL 版 本 更 为 重要 。 老 版 本 在 InnoDB 有 错时 不 会 启动 ， 但 
新 版 本 不 管 怎 样 都 会 启动 ,而 只 是 让 InnoDB 失效 。 即 使 服务 器 看 起 来 启动 没有 任何 问题 ， 
也 应 该 对 每 个 数据 库 运行 SHOW TABLE STATUS 来 再 次 检测 错误 日 志 。 


15.6.2 还 原 逻 辑 备份 


如 果 还 原 的 是 逻辑 备份 而 不 是 物理 备份 ， 则 与 使 用 操作 系统 简单 地 复制 文件 到 适当 位 置 ， 


的 方式 不 同 ， 需 要 使 用 MySQL 服务 器 本 身 来 加 载 数据 到 表 中 。 


在 加 载 导出 文件 之 前 ， 应 该 先 花 一 点 时 间 考 虑 文件 有 多 大 ， 需 要 多 久 加 载 完 ， 以 及 在 启 
动 之 前 还 需要 做 什么 事情 ， 例 如 通知 用 户 或 禁 掉 部 分 应 用 。 禁 掉 二 进 制 日 志 也 是 个 好 主 
意 ， 除 非 需要 将 还 原 操作 复制 到 备 库 : 服务 器 加 载 一 个 巨大 的 导出 文件 的 代价 很 高 ， 并 
且 写 二 进 制 日 志 会 增加 更 多 的 (可 能 没有 必要 的 ) 开销 。 加 载 巨 大 的 文件 对 于 一 些 存 储 
引擎 也 有 影响 。 例 如 ， 在 单个 事务 中 加 载 100GB 数据 到 InnoDB 就 不 是 个 好 想法 ， 因 为 
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巨大 的 回 滚 段 将 会 导致 问题 。 应 该 以 可 控 大 小 的 块 来 加 载 ， 并 且 逐 个 提交 事务 。 有 两 种 
类 型 的 逻辑 备份 ， 所 以 相应 地 有 两 种 类 型 的 还 原 操作 。 


加 载 SQL 文件 
如 果 有 一 个 SQL 导出 文件 ， 它 将 包含 可 执行 的 SQL。 需 要 做 的 就 是 运行 这 个 文件 。 假 
设备 份 Sakila 示例 数据 库 和 Schema 到 单个 文件 ， 下 面 是 用 来 还 原 的 常用 命令 。 

$ mysql < sakila-backup.sql 


也 可 以 从 mysql 命令 行 客户 端 用 SOURCE 命令 加 载 文 件 。 这 只 是 做 相同 事情 的 不 同方 法 ， 
不 过 该 方法 使 得 某 些 事情 更 简单 。 例 如 ， 如 果 你 是 MySQL 管理 用 户 ， 就 可 以 关闭 用 客 
户 端 连接 执行 时 的 二 进 制 记录 ， 然 后 加 载 文件 而 不 需要 重启 MySQL 服务 器 。 


mysql> SET SQL LOG BIN = 0; 
mysql> SOURCE sakila-backup.sql; 
mysql> SET SQL_LOG BIN = 1; 


需要 注意 的 是 ， 如 果 使 用 SOURCE， 当 定向 文件 到 mysql 时 ， 上 默认 情况 下 ， 发 生 一 个 错误 
不 会 导致 一 批语 句 退 出。 
如 果 备 份 做 过 压缩 ， 那 么 不 要 分 别 解 压缩 和 加 载 。 应 该 在 单个 操作 中 完成 解压 缩 和 加 载 。 
这 样 做 会 快 很 多 。 

$ gunzip -c sakila-backup.sql.gz | mysql 
AREH SOURCE 命令 加 载 一 个 压缩 文件 ， 可 参考 下 节 中 关于 命名 管道 的 讨论 。 
如 果 只 想 恢复 单个 表 (例如 ，actor 表 ) ， 要 怎么 做 昵 ? 如 果 数据 没有 分 行 但 有 schema 信 
息 ， 那 么 还 原 数据 并 不 难 。 

$ grep ‘INSERT INTO `actor`' sakila-backup.sql | mysql sakila 
或 者 ， 如 有 果 文 件 是 压缩 过 的 ， 那 么 命令 如 下 。 

$ gunzip -c sakila-backup.sql.gz | grep 'INSERT INTO ‘actor*'| mysql sakila 


如 果 需 要 创建 表 并 还 原 数据 ， 而 在 单个 文件 中 有 整个 数据 库 ， 则 必须 先 编 辑 这 个 文件 。 
这 也 是 有 一 些 人 喜欢 导出 每 个 表 到 各 自 文件 中 的 原因 。 大 部 分 编辑 器 无 法 应 付 巨 大 的 文 
件 ， 尤 其 如 果 它 们 是 压缩 过 的 。 另 外 ， 也 不 会 想 实际 地 编辑 文件 本 身 一 一 只 想 抽取 相关 
的 行 一 一 因此 可 能 必须 做 一 些 命令 行 工 作 。 使 用 grep 来 仅 抽 出 给 定 表 的 INSERT 语句 较 
简单 ， 就 像 我 们 在 前 面 命令 中 做 的 那样 ， 但 得 到 CREATE TABLE 语句 比较 难 。 下 面 是 抽取 
所 需 段落 的 sed 脚本 。 
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$ sed -e '/./{H;$!d;}' -e 'x;/CREATE TABLE ‘actor’/!d;q' sakila-backup.sql 


BON ft RUA OP SE Fs BE. MOR MLK HADI, ARG HAS DiRT 
党 精 糕 。 如 果 有 一 点 规划 ， 可 能 就 不 会 需要 痛苦 地 去 尝试 弄 清楚 sed 如 何 工作 了 。 只 需 
要 备份 每 个 表 到 各 自 的 文件 ， 或 者 可 以 更 进一步 ， 分 别 备 份 数据 和 Schema, 


加 载 符号 分 隔 文 件 

如 朵 是 通过 SELECT INTO OUTFILE 导出 的 符号 分 隔 文件 ， 可 以 使 用 LOAD DATA INFILE 通 
过 相同 的 参数 来 加 载 。 也 可 以 用 mysqlimport， 这 是 LOAD DATA INFILE 的 一 个 包装 。 这 
种 方式 依赖 命名 约定 决定 从 哪里 加 载 一 个 文件 的 数据 。 


我 们 希望 你 导出 了 Schema， 而 不 仅 是 数据 。 如 果 是 这 样 ， 那 应 该 是 一 个 SQL 导出 ， 就 
可 以 使 用 上 一 市 中 描述 的 技术 来 加 载 。 


使 用 LOAD DATA INFILE 有 一 个 非常 好 的 优化 技巧 。LOAD DATA INFILE 必须 直接 从 文本 
文件 中 读 取 ， 因 此 ， 如 果 是 压缩 文件 很 多 人 会 在 加 载 前 先 解压 缩 ， 这 是 非常 慢 的 磁盘 密 
集 型 的 操作 。 然 而 ， 在 支持 FIFO“ 命 名 管道 ”文件 的 系统 如 GNU/Linux 上 ， 对 这 种 操 
作 有 个 很 好 的 方法 。 首 先 ， 创 建 一 个 命名 管道 并 将 解压 缩 数据 流 到 它 里 面 。 

$ mkfifo Jtmp/backup/default/sakila/paynent. fifo 

$ chmod 666 /tmp/backup/default/sakila/payment. fifo 

$ gunzip -c /tmp/backup/default/sakila/payment.txt.gz 

> /tmp/backup/default/sakila/payment. fifo 

注意 我 们 使 用 了 一 个 大 于 号 字符 (>) KBE EMm Bl payment. fifo 文件 中 一 一 而 
不 是 在 不 同 程序 之 间 创 建 匿 名 管道 的 管道 符号 。 


管道 会 等 待 ， 直 到 其 他 程序 打开 它 并 从 另外 一 端 读 取 数 据 。 人 简单 一 反 说 ，MySQL 服务 
器 可 以 从 管道 中 读 取 解 压缩 后 的 数据 ， 就 像 其 他 文件 一 样 。 如 果 可 能 ， 不 要 忘记 禁 掉 二 
进 制 日 志 。 
mysql> SET SQL_LOG BIN = 0; -- Optional 
-> LOAD DATA INFILE '/tmp/backup/default/sakila/payment.fifo' 
-> INTO TABLE sakila.payment; 
Query OK, 16049 rows affected (2.29 sec) 
Records: 16049 Deleted: 0 Skipped: 0 Warnings: 0 
一 旦 MySQL 加 载 完 数据 ，gunzip 就 会 退出 ， 然 后 可 以 删除 该 命令 管道 。 在 MySQL 命 
令 行 客户 端 使 用 SOURCE 命令 加 载 压缩 的 文件 也 可 以 使 用 此 技术 。Percona Toolkit 中 的 
pt-fifo-split 程序 还 可 以 帮助 分 块 加 载 大 文件 ,而 不 是 在 单个 大 事务 中 操作 ,这 样 效率 更 高 。 


15.6 从 备份 中 恢复 | 621 


652 


你 无 法 从 这 里 到 达 那 里 


本 书 的 作者 之 一 曾 将 一 列 从 DATETIME 变 为 TIMESTAMP， 以 节约 空间 并 使 处 理 过 程 
更 快 ， 就 像 第 3 章 中 推荐 的 那样 。 结 果 表 定义 如 下 。 
CREATE TABLE tbl ( 
col1 timestamp NOT NULL, 
col2 timestamp NOT NULL default CURRENT TIMESTAMP 
on update CURRENT TIMESTAMP, 
.. more columns ... 
) ; 
这 个 表 定 义 在 MySQL 5.0.40 版 本 上 导致 了 一 个 语法 错误 ， 而 这 是 创建 时 的 版 本 。 
可 以 执行 导出 ， 但 无 法 加 载 。 这 很 奇怪 ， 诸 如 这 样 无 法 预料 的 错误 也 是 测试 备份 重 
要 的 原因 之 一 。 你 永远 不 会 知道 什么 会 阻止 你 还 原 数据 | 


15.6.3 基于 时 间 点 的 恢复 

对 MySQL 做 基于 时 间 点 的 恢复 常见 的 方法 是 还 原 最 近 一 次 全 备份 ， 然 后 从 那个 时 间 点 
开始 重 放 二 进 制 日 志 《〈《 有 时 叫 “ 前 滚 恢复 ")。 只 要 有 二 进 制 日 志 ， 就 可 以 恢复 到 任何 希 
望 的 时 间 点 。 甚 至 可 以 不 太 费 力 地 恢复 单个 数据 库 。 


主要 的 缺点 是 二 进 制 日 志 重 放 可 能 会 是 一 个 很 慢 的 过 程 。 它 大 体 上 等 同 于 复制 。 如 果 有 
一 个 备 库 ， 并 且 已 经 测量 到 SQL 线程 的 利用 率 有 多 高 ， 那 么 对 重 放 二 进 制 日 志 会 有 多 快 
就 会 心里 有 数 了 。 例 如 ， 如 果 SQL 线程 约 有 50% 被 利用 ， 则 恢复 一 周二 进 制 日 志 的 工 
作 可 能 在 三 到 四 天 内 完成 。 


一 个 典型 场景 是 对 有 害 的 语句 的 结果 做 回 滚 操作 ， 例 如 DROP TABLE。 让 我 们 看 一 个 简化 
的 例子 ， 看 只 有 MyISAM 表 的 情况 下 该 如 何 做 。 假 如 是 在 半夜 ， 备 份 任务 在 运行 与 下 面 
所 列 相当 的 语句 ， 复 制 数 据 库 到 同一 服务 器 上 的 其 他 地 方 。 
mysql> FLUSH TABLES WITH READ LOCK; | 
-> serveri# cp -a /var/lib/mysql/sakila /backup/sakila; 
mysql> FLUSH LOGS; 


-> server1# mysql -e "SHOW MASTER STATUS" --vertical > /backup/master.info; 
mysql> UNLOCK TABLES; 


然后 ,假设 有 人 在 晚 些 时 间 运 行 下 列 语句 。 


mysql> USE sakila; 
mysql> DROP TABLE sakila.payment; 
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为 了 便于 说 明 , 我 们 先 假设 可 以 单独 地 恢复 这 个 数据 库 ( 即 此 库 中 的 表 不 涉及 跨 库 查 询 )。 

再 假设 是 直到 后 来 出 问题 才 意 识 到 这 个 有 问题 的 语句 。 目 标 是 恢复 数据 库 中 除了 有 问题 
的 语句 之 外 所 有 发 生 的 事务 。 也 就 是 说 ， 其 他 表 已 经 做 的 所 有 修改 都 必须 保持 ， 包 括 有 

问题 的 语句 运行 之 后 的 修改 。 


这 并 不 是 很 难 做 到 。 首 先 ， 停 掉 MySQL 以 阻止 更 多 的 修改 ， 然 后 从 备份 中 仅 恢复 
sakila 数据 库 。 
server1# /etc/init.d/mysql stop 


serveri# mv /var/lib/mysql/sakila /var/lib/mysql/sakila.tmp 
serveri# cp -a /backup/sakila /var/lib/mysql 


再 到 运行 的 服务 器 的 my.cnf 中 添加 如 下 配置 以 禁止 正常 的 连接 。 


skip-networking 
socket=/tmp/mysql_recover.sock 


现在 可 以 安全 地 局 动 服 务 器 了 。 
server1# /etc/init.d/mysql start 


下 一 个 任务 是 从 二 进 制 日 志 中 分 出 需要 重 放 和 忽略 的 语句 。 事 发 时 ， 自 半夜 的 备份 以 来 ， 
服务 器 只 创建 了 一 个 二 进 制 日 志 。 我 们 可 以 用 grep 来 检查 二 进 制 日 志文 件 以 找到 问题 语 
AJo 

server1# mysqlbinlog --database=sakila /var/log/mysql/mysql-bin.000215 

| grep -B3 -i ‘drop table sakila.payment' 

# at 352 

#070919 16:11:23 server id 1 end_log pos 429 Query thread_id=16 exec_time=0 

error_code=0 | 

SET TIMESTAMP=1190232683/*!*/; 

DROP TABLE sakila.payment/*!*/; 
可 以 看 到 ， 我 们 想 忽略 的 语句 在 日 志文 件 中 的 352 位 置 ， 下 一 个 语句 位 置 是 429。 可 以 
用 下 面 的 命令 重 放 日 志 直 到 352 位 置 ， 然 后 从 429 继续 。 


server1# mysqlbinlog --database=sakila /var/log/mysql/mysql-bin.000215 
--stop-position=352 | mysql -uroot -p 
server1# mysqlbinlog --database=sakila /var/log/mysql/mysql-bin.000215 
--start-position=429 | mysql -uroot -p 
接 下 来 要 做 的 是 检测 数据 以 确保 没有 问题 ， 然 后 关闭 服务 器 并 撤消 对 my.cnf 的 改变 ， 
后 重启 服务 器 。 
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15.6.4 更 高 级 的 恢复 技术 

复制 和 基于 时 间 点 的 恢复 使 用 的 是 相同 的 技术 : 服务 器 的 二 进 制 日 志 。 这 意味 着 复制 在 
恢复 时 会 是 个 非常 有 帮助 的 工具 ， 哪 怕 方 式 不 是 很 明显 。 在 本 节 中 我 们 将 演示 一 些 可 以 
用 到 的 方法 。 这 里 列 出 来 的 不 是 一 个 完全 的 列表 ， 但 应 该 可 以 为 你 根据 需求 设计 恢复 方 
案 带 来 一 些 想法 。 记 得 编写 脚本 ， 并 且 对 恢复 过 程 中 需要 用 到 的 所 有 技术 进行 预演 。 


用 于 快速 恢复 的 延 时 复制 
在 本 章 的 前 面 已 经 提 到 ， 如 果 有 一 个 延 时 的 备 库 ， 并 且 在 备 库 执行 问题 语句 之 前 就 发 现 
了 问题 ， 那 么 基于 时 间 氮 的 恢复 就 更 快 更 容易 了 。 


恢复 的 过 程 与 本 章 前 几 节 描述 的 有 点 不 一 样 ， 但 思路 是 相同 的 。 停 止 备 库 ， 用 START 
SLAVE UNTIL 来 重 放 事 件 直到 要 执行 问题 语句 。 接 着 ， 执 行 SET GLOBAL SQL_SLAVE_ 
SKIP_COUNTER=1 来 跳 过 问题 语句 。 如 果 想 跳 过 多 个 事件 ， 可 以 设置 一 个 大 于 1 的 值 (或 
简单 地 使 用 CHANGE MASTER TO 来 前 移 备 库 在 日 志 中 的 位 置 ) 。 


然后 要 做 的 就 是 执行 START SLAVE， 让 备 库 执行 完 所 有 的 中 继 日 志 。 这 样 就 利用 备 库 完 
成 了 基于 时 间 点 的 恢复 中 所 有 元 长 的 工作 。 现 在 可 以 将 备 库 提升 为 主 库 ， 整 个 恢复 过 程 
基本 上 没有 中 断 服务 。 


即使 没有 延 时 的 备 库 来 加 速 恢复 ， 普 通 的 备 库 也 有 好 处 ， 至 少 会 把 主 库 的 二 进 制 日 志 复 
制 到 另外 的 机 器 上 。 如 果 主 库 的 磁盘 坏 了 ， 备 库 上 的 中 继 日 志 可 能 就 是 唯一 能 够 获取 到 
的 最 接近 主 库 二 进 制 日 志 的 东西 了 。 


使 用 日 志 服务 器 进行 恢复 

还 有 另外 一 种 使 用 复制 来 做 恢复 的 方法 : 设置 日 志 服 务 器 。 我 们 感觉 复制 比 mysqlbinlog 
ES, mysglbinlog 可 能 会 有 一 些 导 致 异常 行为 的 奇怪 的 Bug 和 不 常见 的 情况 。 使 用 日 
志 服 务 器 进行 恢复 比 mysqlbiniog 更 灵活 更 简单 ， 不 仅 因为 START SLAVE UNTIL 选项 ， 还 
因为 那些 可 以 采用 的 复制 规则 (例如 repLicate-do-tabte)。 使 用 日 志 服 务 器 ， 相 对 其 
他 的 方式 来 说 ， 可 以 做 到 更 复杂 的 过 滤 。. 

例如 ， 使 用 日 志 服 务 器 可 以 轻松 地 恢复 单个 表 。 而 用 mysqlbinlog 和 命令 行 工具 则 要 困 
难得 多 一 一 事实 上 ， 这 样 做 太 复 杂 了 ， 所 以 我 们 一 般 不 建议 进行 尝 i 

假设 粗心 的 开发 人 员 像 前 面 的 例子 一 样 删除 了 同样 的 表 ， 现 在 想 恢复 此 误 操作 ， 但 又 不 
想 让 整个 服务 器 退 到 昨 晚 的 备份 。 下 面 是 利用 日 志 服 务 器 进行 恢复 的 步骤 : 


1. 将 需要 恢复 的 服务 器 叫 作 server1。 
2. 在 另外 一 台 叫 做 server2 的 服务 器 上 恢复 昨 晚 的 备份 。 在 这 台 服 务 器 上 运行 恢复 进 
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程 ， 以 免 在 恢复 时 犯错 而 导致 事情 更 粳 。 

3. 按照 第 10 章 的 做 法 设置 日 志 服 务 器 来 接收 serverl 的 二 进 制 日 志 (复制 日 志 到 另外 
一 个 服务 器 并 设置 日 志 服 务 器 是 个 好 想法 ， 但 是 要 格外 注意 。) 

4. 改变 server2 的 配置 文件 ， 增 加 如 下 内 容 。 


replicate-do-table=sakila.payment 


5. 重启 server2， 然 后 用 CHANGE MASTER TO0 来 让 它 成 为 日 志 服 务 器 的 备 库 。 配 置 它 从 
昨 晚 备份 的 二 进 制 日 志 坐 标 读 取 。 这 时 候 切 记 不 要 运行 START SLAVE, 

6. 检测 server2 上 的 SHOW SLAVE STATUS 的 输出 ， 验 证 一 切 正常 。 要 三 思 而 行 ! 

7. 找到 二 进 制 日 志 中 间 题 语句 的 位 置 ， 在 server2 上 执行 START SLAVE UNTIL 来 重 放 
事件 直到 该 位 置 。 

8. 在 server2 上 用 STOP SLAVE 停 掉 复制 进程 。 现 在 应 该 有 被 删除 表 ， 因 为 现在 从 库 停 
止 在 被 删除 之 前 的 时 间 点 。 | 

9. 将 所 需 表 从 server2 复制 到 serverl, 


只 有 没有 任何 多 表 的 UPDATE, DELETE 或 INSERT 语句 操作 这 个 表 时 ,上述 流程 才 是 可 行 的 。 
任何 这 样 的 多 表 操 作 语句 在 被 记录 的 时 候 ， 可 能 是 基于 多 个 数据 库 的 状态 ， 而 不 仅仅 是 
当前 要 恢复 的 这 个 数据 库 ， 所 以 这 样 恢 复出 来 的 数据 可 能 和 原始 的 有 所 不 同 。( 只 有 在 
使 用 基于 语句 的 二 进 制 日 志 时 才 会 有 这 个 问题 ; 如 果 使 用 的 是 基于 行 的 日 志 ， 重 放 过 程 
不 会 碰 到 这 个 错误 。) 


15.6.5 InnoDB AARE 

InnoDB 在 每 次 启动 时 都 会 检测 数据 和 日 志文 件 ， 以 确认 是 否 需 要 执行 恢复 过 程 。 而 且 ， 
InnoDB 的 恢复 过 程 与 我 们 在 本 章 之 前 谈论 的 不 是 一 回 事 。 它 并 不 是 恢复 备份 的 数据 ， 
而 是 根据 日 志文 件 将 事务 应 用 到 数据 文件 ， 将 未 提交 的 变更 从 数据 文件 中 回 滚 。 


精确 地 描述 InnoDB 如 何 进 行 恢复 工作 ， 这 有 点 太 过 复杂 。 我 们 要 关注 的 焦点 是 当 
InnoDB 有 严重 问题 时 如 何 实际 执行 恢复 。 


大 部 分 情况 下 InnoDB 可 以 很 好 地 解决 问题 。 除 非 MySQL 有 Bug 或 硬件 有 问题 ， 否 则 
不 需要 做 任何 非常 规 的 事情 ， 哪 怕 是 服务 器 意外 断 电 。InnoDB 会 在 启动 时 执行 正常 的 
恢复 ， 然 后 就 一 切 正常 了 。 在 日 志文 件 中 ， 可 以 看 到 如 下 信息 。 


InnoDB: Doing recovery: scanned up to log sequence number 0 40817239 
InnoDB: Starting an apply batch of log records to the database... 


InnoDB 会 在 日 志文 件 中 输出 恢复 进度 的 百分比 信息 。 有 些 人 说 直到 整个 过 程 完 成 才能 
看 到 这 些 信 息 。 耐 心 点 ， 这 个 恢复 过 程 是 急 不 来 的 。 如 果 心 急 而 杀 掉 进程 并 重启 ， 只 会 
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导致 需要 更 长 的 恢复 时 间 。 


如 果 服 务 器 硬件 有 严重 问题 ， 例 如 内 存 或 磁盘 损坏 ， 或 遇 到 了 MySQL & InnoDB 的 
Bug， 可 能 就 不 得 不 介入 ， 这 时 要 么 进行 强制 恢复 ， 要 么 阻止 正常 恢复 发 生 。 


InnoDB 损坏 的 原因 


InnoDB 非常 健壮 且 可 靠 , 并 且 有 许多 的 内 建安 全 检测 来 防止 .检测 和 修复 损坏 的 数据 一 一 
比 其 他 MySQL 存储 引擎 要 强 很 多 。 然 而 ，InnoDB 并 不 能 保护 自己 避免 一 切 错误 。 


最 起 码 ，InnoDB 依赖 于 无 缓存 的 IO 调用 和 fsync() 调用 ， 直 到 数据 完全 地 写 入 到 物理 
介质 上 才 会 返回 。 如 果 硬 件 不 能 保证 写 入 的 持久 化 ，InnoDB 也 就 不 能 保证 数据 的 持久 ， 
崩溃 就 有 可 能 导致 数据 损坏 。 


很 多 InnoDB 损坏 问题 都 是 与 硬件 有 关 的 (例如 ， 因 电力 问题 或 内 存 损坏 而 导致 损坏 页 
的 写 入 )。 然 而 ， 在 我 们 的 经 验 中 ， 错 误 配 置 的 硬件 是 更 多 的 问题 之 源 。 常 见 的 错误 配 
置 包括 打开 了 不 包含 电池 备份 单元 的 RAID 卡 的 回 写 缓存 ， 或 打开 了 硬盘 驱动 器 本 身 的 
回 写 缓存 。 这 些 错误 将 会 导致 控制 器 或 驱动 器 “撒谎 “， 在 数据 实际 上 只 写 人 到 回 写 组 
存 上 而 不 是 磁盘 上 时 ， 却 说 fsync() 已 经 完成 。 换 句 话 说， 硬件 没有 提供 保持 InnoDB 
数据 安全 的 保证 。 


有 时 候 机 器 默认 就 会 这 样 配置 ， 因 为 这 样 做 可 以 得 到 更 好 的 性 能 一 一 对 于 茶 些 场景 确实 
很 好 ， 但 是 对 事务 数据 服务 来 说 却 是 个 大 问题 。 


如 果 在 网 络 附加 存储 (NAS) 上 运行 InnoDB， 也 可 能 会 遇 到 损坏 ， 因 为 对 NAS 设备 来 
说 完成 fsync() 只 是 意味 着 设备 接收 到 了 数据 。 如 果 InnoDB 崩溃 ， 数 据 是 安全 的 ， 但 
如 果 是 NAS 设备 崩溃 就 不 一 定 了 。 


严重 的 损坏 会 使 InnoDB 或 MySQL 月 沉 ， 而 不 那么 严重 的 损坏 则 可 能 只 是 由 于 日 志文 
件 未 真正 同步 到 磁盘 而 丢掉 了 某 些 事务 。 


如 何 恢复 损坏 的 InnoDB 数据 
InnoDB 损坏 有 三 种 主要 类 型 ， 它 们 对 数据 恢复 有 着 不 同 程度 的 要 求 。 


二 级 索引 损坏 
一 般 可 以 用 OPTIMIZE TABLE 来 修复 损坏 的 二 级 索引 ; 此 外 ， 也 可 以 用 SELECT INTO 
0UTFILE， 删 除 和 重建 表 ， 然 后 LOAD DATA INFILE 的 方法 。( 也 可 以 将 表 改 为 使 用 
MyISAM 再 改 回来 。) 这 些 过 程 都 是 通过 构建 一 个 新 表 重 建 受 影响 的 索引 ， 来 修复 
损坏 的 索引 数据 。 
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聚 斤 索引 损坏 
如 有 果 是 聚 徐 索引 损坏 ， 也 许 只 能 使 用 ijnnodb_force_recovery 选项 来 导出 表 (关于 
这 点 后 续 会 讲 更 多 )。 有 时 导出 过 程 会 让 InnoDB AAMT ; 如 果 出 现 这 样 的 情况 ， 或 许 
需要 跳 过 导致 崩溃 的 损坏 页 以 导出 其 他 的 记录 。 聚 簇 索引 的 损坏 比 二 级 索引 要 更 难 
修复 ， 因 为 它 会 影响 数据 行 本 身 ， 但 在 多 数 场 合 下 仍然 只 需要 修复 受 影响 的 表 。 
损坏 系统 结构 | 
系统 结构 包括 InnoDB 事务 日 志 、 表 空间 的 撤销 日 志 (undo log) 区 域 和 数据 字典 。 
这 种 损坏 可 能 需要 做 整个 数据 库 的 导出 和 还 原 ， 因 为 InnoDB 内 部 绝 大 部 分 的 工作 
都 可 能 受到 影响 。 


一 般 可 以 修复 损坏 的 二 级 索引 而 不 丢失 数据 。 然 而 ， 另 外 两 种 情形 经 常会 引起 数据 的 丢 
失 。 如 果 已 经 有 备份 , 那 最 好 还 是 从 备份 中 还 原 ,而 不 是 试 着 从 损坏 的 文件 里 去 提取 数据 。 


如 果 必 须 从 损坏 的 文件 里 提取 数据 ， 那 一 般 过 程 是 先 尝试 让 InnoDB 运行 起 来 ， 然 后 使 
用 SELECT INTO OUTFILE 导出 数据 。 如 果 服 务 器 已 经 崩 涡 ， 并 且 每 次 启动 InnoDB 都 会 
崩溃 ,那么 可 以 配置 InnoDB 停止 常规 恢复 和 后 台 进 程 的 运行 。 这 样 也 许可 以 启动 服务 器 ， 
然后 在 缺少 或 不 做 完整 性 检查 的 情况 下 做 逻辑 备份 。 


innodb_force_recovery 参数 控制 着 InnoDB 在 启动 和 常规 操作 时 要 做 哪 一 种 类 型 的 操 
作 。 通 常情 况 下 这 个 值 是 0， 可 以 增 大 到 6。MySQL 使 用 手册 里 记录 了 每 个 数值 究竟 会 
产生 什么 行为 ; 在 此 我 们 不 会 重复 这 段 信 息 ， 但 是 要 告诉 你 : 在 有 点 危险 的 前 提 下 ， 可 
以 把 这 个 数值 调 高 到 4。 使 用 这 个 设置 时 ， 若 有 数据 页 损坏 ， 将 会 丢失 一 些 数 据 ; 如 果 
将 数值 设 得 更 高 ， 可 能 会 从 损坏 的 页 里 提取 到 坏 掉 的 数据 ， 或 者 增加 执行 SELECT INTO 
OUTFILES 时 戎 省 的 风险 。 换 句 话 说， 这 个 值 直到 4 都 对 数据 没有 损害 ， 但 可 能 形 失 修复 
问题 的 机 会 ; 而 到 5 和 6 会 更 主动 地 修复 问题 ， 但 损害 数据 的 风险 也 会 很 大 。 


当 把 innodb force recovery 设 为 大 于 0 的 某 个 值 时 ，InnoDB 基本 上 是 只 读 的 ， 但 是 
仍然 可 以 创建 和 删除 表 。 这 可 以 阻止 进一步 的 损坏 ，InnoDB 会 放松 一 些 常规 检查 ， 以 
便 在 发 现 坏 数 据 时 不 会 特意 月 涡 。 在 常规 操作 中 ,这 样 做 是 有 安全 保障 的 ,但 是 在 恢复 时 ， 
最 好 还 是 避免 这 样 做 。 如 果 需 要 执行 InnoDB 强制 恢复 ， 有 个 好 主意 是 配置 MySQL， 使 
它 在 操作 完成 之 前 不 接受 常规 的 连接 请 求 。 


如 果 InnoDB 的 数据 损坏 到 了 根本 不 能 启动 MySQL 的 程度 ， 还 可 以 使 用 Percona 出 品 的 
InnoDB Recovery Toolkit 从 表 空 间 的 数据 文件 里 直接 抽取 数据 。 这 个 工具 由 本 书 的 几 个 
作者 开发 ， 可 以 从 http://www.percona.com/software 免费 获取 。Percona Server 还 有 人 允许 
服务 器 在 某 些 表 损坏 时 仍 能 运行 的 选项 ， 而 不 是 像 MySQL 那样 在 单个 表 损 坏 页 被 检测 
出 时 就 默认 强制 崩溃 。 
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15.7 备份 和 恢复 工具 


有 各 种 各 样 的 好 的 和 不 是 那么 好 的 备份 工具 。 我 们 喜欢 对 LVM 使 用 mylvmbackup 做 
快照 备份 ， 使 用 Percona Xtrabackup (开源 ) 或 MySQL Enterprise Backup (收费 ) 做 
InnoDB 热 备份 。 不 建议 对 大 数据 量 使 用 mysqldump, AA CHIS BARI, FFA BK 
的 还 原 时 间 不 可 预知 。 


有 一 些 备份 工具 已 经 出 现 多 年 了 ， 不 幸 的 是 有 些 已 经 过 时 。 最 明显 的 例子 是 Maatkit 的 
mk-parallel-dump， 它 从 没有 正确 运行 ， 其 至 被 重新 设计 过 好 几 次 还 是 不 行 。 另 外 一 个 
工具 是 mysqlhotcopy， 它 适合 于 古老 的 MyISAM 表 。 大 部 分 场景 下 这 两 个 工具 都 无 法 
让 人 相信 数据 是 安全 的 ， 它 们 会 使 人 误 以 为 备份 了 数据 实际 上 却 非 如 此 。 例 如 ， 当 使 用 
InnoDB 的 innodb_file_per_table ft, mysglhotcopy 会 复制 .ibd 文件 ， 这 会 使 一 些 人 误 
以 为 InnoDB 的 数据 已 经 备份 完成 。 在 某 些 场景 下 ， 这 两 个 工具 都 对 服务 器 有 一 些 负 面 
影响 。 


如 果 你 在 2008 或 2009 年 时 在 看 MySQL 的 路 线 图 ， 可 能 听 说 过 MySQL 在 线 备份 。 这 
是 一 个 可 以 用 SQL 命令 来 开始 备份 和 还 原 的 特性 。 它 原本 是 规划 在 MySQL 5.2 版 本 中 ， 
后 来 重新 安排 在 了 MySQL 6.0 中 ， 再 后 来 ， 据 我 们 所 知 被 永久 取消 了 。 


15.7.1 MySQL Enterprise Backup 


这 个 工具 之 前 叫做 InnoDB Hot Backup 或 ibbackup， 是 从 Oracle 购买 的 MySQL 
Enterprise 中 的 一 部 分 。 使 用 此 工具 备份 不 需要 停止 MySQL ， 也 不 需要 设置 锁 或 中 断 正 
茹 的 数据 库 活 动 (但 是 会 对 服务 器 造成 一 些 额外 的 负载 )。 它 支持 类 似 压缩 备份 、 增 量 
备份 和 到 其 他 服务 句 的 流 备份 的 特性 。 这 是 MySQL “官方 ”的 备份 工具 。 


15.7.2 Percona XtraBackup 

Percona XtraBackup 与 MySQL Enterprise Backup 在 很 多 方面 都 非常 类 似 ， 但 它 是 开源 并 
且 免 费 的 。 除 了 核心 备份 工具 外 ,还 有 一 个 用 Perl 写 的 封装 脚本 ,可 以 提供 更 多 高 级 功能 。 
它 支 持 类 似 流 、 增 量 、 压 缩 和 多 线程 (HT) 备份 操作 。 也 有 许多 特别 的 功能 ， 用 以 降 


. 低 在 高 负载 的 系统 上 备份 的 影响 。 


Percona XtraBackup 的 工作 方式 是 在 后 台 线 程 不 断 追 踪 InnoDB 日 志文 件 尾 部 ， 然 后 复 
fil InnoDB 数据 文件 。 这 是 个 轻 量 级 侵入 过 程 ， 依 靠 特别 的 检测 机 制 确保 复制 的 数据 是 
一 致 的 。 当 所 有 的 数据 文件 被 复制 完 ， 日 志 复 制 线程 就 结束 了 。 结 果 是 在 不 同 的 时 间 点 
的 所 有 数据 的 副本 。 然 后 可 以 使 用 InnoDB 崩溃 恢复 代码 应 用 事务 日 志 ， 以 达到 所 有 数 
据 文件 一 致 的 状态 。 这 一 步 叫 作 准 备 过 程 。 一 旦 准备 好 ， 备 份 就 会 完全 一 致 ， 并 且 包 含 
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文件 复制 过 程 最 后 时 间 点 已 经 提交 的 事务 。 一 切 都 在 MySQL 外 部 完成 ， 因 此 不 需要 以 
任何 方式 连接 或 访问 MySQL. 


包装 脚本 包含 通过 复制 备份 到 原 位 置 的 方式 进行 恢复 的 能 力 。 还 有 Lachlan Mulcahy 
的 XtraBack Manager 项 目 ， 功 能 更 多 ， 详 情 参 见 htip://code.google.com/p/xtrabackup- 


manager/。 


15.7.3. mylvmbackup 


Lenz Grimmer 的 mylvmbackup ( http://lenz.homelinux.org/mylvmbackup/) :—“* Perl 脚本 ， 
它 通过 LVM 快照 帮助 MySQL 自动 备份 。 此 工具 首先 获取 全 局 读 锁 ,创建 快照 , 释放 锁 。 
然后 通过 tar 压缩 数据 并 移 除 快照 。 它 通过 备份 时 的 时 间 戳 命名 压缩 包 。 它 还 有 几 个 高 
级 选项 ， 但 总 的 来 说 ， 这 是 一 个 执行 LVM 备份 的 非常 简单 明了 的 工具 。 


15.7.4 Zmanda Recovery Manager 


.适用 于 MySQL 的 Zmanda Recovery Manager， 或 ZRM (http://www.zmanda.com), #%& 
费 (GPL) 和 商业 两 种 版 本 。 企 业 版 提供 基于 网 页 图 形 接口 的 控制 台 ， 用 来 配置 、 备 份 、 
验证 、 恢 复 、 报 告 和 调度 。 开 源 的 版 本 包含 了 所 有 核心 功能 ， 但 缺少 一 些 额 外 的 特性 ， 
例如 基于 网 页 的 控制 台 。 


正如 其 名 ，ZRM 实际 上 是 一 个 备份 和 恢复 管理 器 ， 而 并 非 单一 工具 。 它 封装 了 自 有 的 基 
于 标准 工具 和 技术 ， 例 如 mysglidump、LVM 快照 和 Percona XtraBackup 等 之 上 的 功能 。 
它 将 许多 元 长 的 备份 和 恢复 工作 进行 了 自动 化 。 


15.7.5 mydumper 


JL MySQL 现在 和 之 前 的 工程 师 利 用 他 们 多 年 的 经 验 创建 了 mydumper， 用 来 严 代 
mysqldump。 这 是 一 个 多 线程 (并 发 ) 的 备份 和 还 原 MySQL 和 Drizzle 的 工具 集 ， 有 许 
多 很 好 的 特性 。 大 概 有 许多 人 会 发 现 多 线程 备份 和 还 原 的 速度 是 这 个 工具 最 吸引 人 的 特 
色 。 尽 管 我 们 知道 有 些 人 在 生产 环境 中 使 用 ， 但 我 们 还 没有 在 任何 产品 中 使 用 的 经 验 。 
可 以 在 http://www.mydumper org 找到 更 多 信息 。 


15.7.6 mysqldump | 

大 部 分 人 在 使 用 这 个 与 MySQL 一 起 发 行 的 程序 ， 因 此 ， 尽 管 它 有 缺点 ， 但 创建 数据 和 
Schema 的 逻辑 备份 最 常见 的 选择 还 是 mysqlidump。 这 是 一 个 通用 工具 ， 可 以 用 于 许多 的 
任务 ， 例 如 在 服务 器 间 复 制 表 。 
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$ mysqldump --host=server1 test t1 | mysql --host=server2 test 


我 们 在 本 章 中 展示 了 几 个 用 mysqldump 创建 逻辑 备份 的 例子 。 该 工具 默认 会 输出 包含 创 
建 表 和 填充 数据 的 所 有 需要 的 命令 ， 也 有 选项 可 以 控制 输出 视图 、 存 储 代码 和 触发 器 。 
下 面 有 一 些 典 型 的 例子 。 | 


。 对 服务 器 上 所 有 的 内 容 创建 逻辑 备份 到 单个 文件 中 ， 每 个 库 中 所 有 的 表 在 相同 逻辑 
时 间 点 备份 : 


$ mysqldump --all-databases > dump.sql 


e 创建 只 包含 Sakila 示例 数据 库 的 逻辑 备份 : 


$ mysqldump --databases sakila > dump.sql 


e 创建 只 包含 sakila.actor 表 的 逻辑 备份 : 


$ mysqldump sakila actor > dump.sql 


可 以 使 用 --result-file 选项 来 指定 输出 文件 ， 这 可 以 帮助 防止 在 Windows 上 发 生 换行 符 
转换 : 


$ mysqldump sakila actor --result-file=dump.sql 


mysqldump 的 默认 选项 对 于 大 多 数 备份 目的 来 说 并 不 够 好 。 多 半 要 显 式 地 指定 某 些 选项 
以 改变 输出 。 下 面 是 一 些 我 们 经 常 使 用 的 选项 ， 可 以 让 mysqldump 更 加 高 效 ， 输 出 更 容 
易 使 用 。 


--opt 
启用 一 组 优化 选项 ， 包 括 关闭 缓冲 区 〈 它 会 使 服务 器 耗 尽 内 存 ) ， 导 出 数据 时 把 更 多 
的 数据 写 在 更 少 的 SQL 语句 里 ， 以 便 在 加 载 的 时 候 更 有 效率 ， 以 及 做 其 他 一 些 有 用 
的 事情 。 更 多 细 市 可 以 阅读 帮助 文件 。 如 果 关 闭 了 这 组 选项 ，mysgldump 会 在 把 表 
写 到 磁盘 之 前 ， 把 它们 都 导出 到 内 存 里 ， 这 对 于 大 型 的 表 而 言 是 不 切实 际 的 。 
--allow-keywords, --quote-names 
使 用 户 在 导出 和 恢复 表 时 ， 可 以 使 用 保留 字 作为 表 的 名 字 。 
--complete-insert 
使 用 户 能 在 不 完全 相同 列 的 表 之 间 移 动 数 据 。 
--tz-utc 
使 用 户 能 在 具有 不 同时 区 的 服务 器 之 间 移 动 数据 。 
--lock-all-tables 
使 用 FLUSH TABLE WITH READ LOCK 来 获取 全 局 一 致 的 备份 。 
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--tab 
FA SELECT INTO OUTFILE 导出 文件 。 

--skip-extended-insert 
使 每 一 行 数据 都 有 自己 的 INSERT 语句 。 必 要 时 这 可 以 用 于 有 选择 地 还 原 某 些 行 。 它 
的 代价 是 文件 更 大 ， 导 入 到 MySQL 时 开销 会 更 大 。 因 此 ， 要 确保 只 有 在 需要 时 才 
BHE. 


如 果 在 mysqldump 上 使 用 --databases 或 --all-databases 选项 ， 那 么 最 终 导 出 的 数据 在 每 
个 数据 库 中 都 一 致 ， 因 为 mysqldump 会 在 同一 时 间 锁 定 并 导出 一 个 数据 库 里 的 所 有 表 。 
然而 ， 来 自 不 同 数据 库 的 各 个 表 就 未 必 是 相互 一 致 的 。 使 用 --lock-all-tables 选项 可 以 解 
决 这 个 问题 。 


对 于 InnoDB 备份 ， 应 该 增加 --single-transaction 选项 ， 这 会 使 用 InnoDB 的 MVCC 特 
性 在 单个 时 间 点 创建 一 个 一 致 的 备份 ， 而 不 需要 使 用 LOCK TABLES 锁定 所 有 表 。 如 果 增 
加 --master-data 选项 ， 备 份 还 会 包括 在 备份 时 服务 器 的 二 进 制 日 志文 件 位置 ， 这 对 基于 
时 间 点 的 恢复 和 设置 复制 非常 有 帮助 。 然 而 也 要 知道 ， 获 得 日 志 位 置 时 需要 使 用 FLUSH 
TABLES WITH READ LOCK 冻结 服务 器 。 


15.8 备份 脚本 化 


为 备份 写 一 些 脚 本 是 标准 做 法 。 展 示 一 个 示例 程序 ， 其 中 必定 有 很 多 辅助 内 容 ， 这 只 会 
增加 篇 幅 ， 在 这 里 我 们 更 愿意 列举 一 些 典 型 的 备份 脚本 功能 ， 展 示 一 些 Perl 脚本 的 代码 
片断 。 你 可 以 把 这 些 当 作 可 重用 的 代码 块 ， 在 创建 自己 的 脚本 时 可 以 直接 组 合 起 来 使 用 。 
下 面 将 大 致 按照 使 用 顺序 来 展示 。 
安全 检测 
安全 检测 可 以 让 自己 和 同事 的 生活 更 简单 点 一 一 打开 严格 的 错误 检测 ， 并 且 使 用 英 
文 变 量 名 。 


use strict; 
use warnings FATAL => ‘all'; 
use English qw(-no_match_ vars); 


如 果 是 在 Bash 下 使 用 脚本 ， 还 可 以 做 更 严格 的 变量 检测 。 下 面 的 设置 会 让 替换 中 有 
未 定义 的 变量 或 程序 出 错 退 出 时 产生 一 个 错误 。 | 


set -u; 
set -e; 
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命令 行 参数 

增加 命令 行 选 项 处 理 最 好 的 方法 是 用 标准 库 ， 它 已 包含 在 Perl 标准 安装 中 。 

use Getopt: :Long; | | 

Getopt: : Long: pea no ignore case’, ‘bundling’ ); 

GetOptions( .... ); 

连接 MySQL 

标准 的 Perl DBI 库 几 乎 无 所 不 在 ， 提 供 了 许多 强大 和 灵活 的 功能 。 使 用 详情 请 参阅 
Perldoc (可 从 http://search.cpna.org 在 线 获 取 )。 可 以 像 下 面 这 样 使 用 DBI 来 连接 
MySQL, 

use DBI; 

$dbh = DBI->connect( 

'DBI:mysql:;host=localhost', ‘user’, 'p4sswOrd', {RaiseError => 1 }); 

对 于 编写 命令 行 脚本 ， 请 阅读 标准 mysql 程序 的 --help 参数 的 输出 文本 。 它 有 许多 
选项 可 更 友好 地 支持 脚本 。 例 如 ， 在 Bash 中 过 历数 据 库 列表 如 下 。 

mysql -SS -e ‘SHOW DATABASES' | while read DB; do 


echo "${DB}" 
done 


停止 和 启动 MySOL 
停止 和 启动 MySQL 最 好 的 方法 是 使 用 操作 系统 推荐 的 方法 ， 例 如 运行 /etc/init.d/ 
mysql init 脚本 或 通过 服务 控制 (在 Windows 下 )。 然 而 这 并 不 是 唯一 的 方法 。 可 以 
从 Perl 中 用 一 个 已 存在 的 数据 库 连 接 来 关闭 数据 库 。 


$dbh->func("shutdown", ‘admin'); 


当 这 个 命令 完成 时 不 要 太 指 望 MySQL 已 经 被 关闭 一 一 它 可 能 正在 关闭 的 过 程 中 。 
也 可 以 通过 命令 行 来 停 掉 MySQL。 


$ mysqladmin shutdown 


获取 数据 库 和 表 的 列表 
每 个 备份 脚本 都 会 查询 MySQL 以 获取 数据 库 和 表 的 列表 。 要 注意 那些 实际 上 并 
不 是 数据 库 的 条 目 ， 例 如 一 些 日 志 系 统 中 的 lost+found XRF INFORMATION 
SCHEMA。 也 要 确保 脚本 已 经 准备 好 应 付 视 图 ， 同 时 也 要 知道 SHOW TABLE STATUS 在 
InnoDB 中 有 大 量 数据 时 可 能 耗 时 很 长 。 
mysql> SHOW DATABASES; 


mysql> SHOW /*!50002 FULL*/ TABLES FROM <database>; 
mysql> SHOW TABLE STATUS FROM <database>; 
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对 表 加 锁 、 刷 新 并 解锁 、 
如 果 需 要 对 一 个 或 多 个 表 加 锁 并 且 / 或 刷新 ， 要 么 按 名 字 锁 住所 需 的 表 ， 要 么 使 用 
全 局 锁 锁 住所 有 的 表 。 
mysql> LOCK TABLES <database.table> READ [, ...]; 
mysql> FLUSH TABLES; 
mysql> FLUSH TABLES <database.table> [, ...]; 


mysql> FLUSH TABLES WITH READ LOCK; 
mysql> UNLOCK TABLES; 


在 获取 所 有 的 表 并 锁 住 它们 时 要 格外 注意 竞争 条 件 。 期 间 可 能 会 有 新 表 创 建 ， 或 有 

表 被 删除 或 重 命 名 。 如 果 一 个 表 一 个 表 地 锁 住 然后 备份 ， 将 无 法 得 到 一 致 性 的 备份 。 
刷新 二 进 制 日 志 | 

让 服务 器 开始 一 个 新 的 二 进 制 日 志 非 常 简单 (一 般 在 锁 住 表 后 但 在 备份 前 做 这 个 操 

作 ) : 


mysql> FLUSH LOGS; 


这 样 做 使 得 恢复 和 增 量 备份 更 简单 ， 因 为 不 需要 考虑 从 一 个 日 志文 件 中 间 开 始 操作 。 
此 操作 会 有 一 些 副 作用 ， 比 如 刷新 和 重新 打开 错误 日 志 ， 也 可 能 销 眉 老 的 日 志 条 目 ， 
因此 ， 注 意 不 要 扔 掉 需 要 用 到 的 数据 。 
获取 二 进 制 日 志 位 置 
脚本 应 该 获取 并 记录 主 库 和 备 库 的 状态 一 一 即使 服务 器 仅 是 个 主 库 或 备 库 。 
mysql> SHOW MASTER STATUS\G 
mysql> SHOW SLAVE STATUS\G 
执行 这 两 条 语句 并 忽略 错误 ， 以 使 脚本 可 以 获取 到 所 有 可 能 的 信息 。 
导出 数据 
最 好 的 选择 是 使 用 mysqldump. mydumper 或 SELECT INTO OUTFILE。 
复制 数据 
可 以 使 用 本 章 中 演示 的 任何 一 个 方法 。 


这 些 都 是 构造 备份 脚本 的 基础 。 比 较 困 难 的 部 分 是 将 管理 和 恢复 任务 脚本 化 。 如 果 想 获 
得 实现 的 灵感 ， 可 以 看 看 ZRM 的 源码 。 
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每 个 人 都 知道 需要 备份 ， 但 并 不 是 每 个 人 都 意识 到 需要 的 是 可 恢复 的 备份 。 有 许多 方法 
. 可 以 规划 能 满足 恢复 需求 的 备份 。 为 了 避免 这 个 问题 ， 我 们 建议 明确 并 记录 恢复 点 目标 
和 恢复 时 间 目 标 ， 并 且 在 选择 备份 系统 时 将 其 作为 参考 。 
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在 日 常 基础 上 做 恢复 测试 以 确保 备份 可 以 正常 工作 也 很 重要 。 设 置 mysqldump 并 让 它 在 
每 天 晚上 运行 是 很 简单 的 ， 但 很 多 时 候 不 会 意识 到 数据 随 着 时 间 已 经 增长 到 可 能 需要 几 
天 或 几 周 才能 再 次 导入 的 地 步 。 最 精 糕 的 是 当 你 真正 需要 恢复 的 时 候 ， 才 发 现 原 来 需要 
这 么 长 时 间 。 毫 不 夸张 地 说 ， 一 个 在 几 个 小 时 内 完成 的 备份 可 能 需要 几 周 时 间 来 恢复 ， 
具体 取决 于 硬件 、Schema、 索 引 和 数据 。 


不 要 掉 进 备 库 就 是 备份 的 陷阱 。 备 库 对 生成 备份 是 一 个 干涉 较 少 的 源 ， 但 它 不 是 备份 本 
身 。 对 于 RAID 卷 、SAN 和 文件 系统 快照 ， 也 同样 如 些 。 确 保 备 份 可 以 通过 DROP TABLE 
测试 (或 “遭受 黑客 攻击 ”的 测试 )， 也 要 能 通过 数据 中 心 失败 的 测试 。 如 果 是 基于 备 
库 生 成 备份 ， 确 保 使 用 pt-table-checksum 验证 复制 的 完整 性 。 | 


我 们 最 喜欢 的 两 种 备份 方式 ， 一 种 是 从 文件 系统 或 者 SAN 快照 中 直接 复制 数据 文件 ， 一 
种 是 使 用 Percona XtraBackup 做 热 备份 。 这 两 种 方法 都 可 以 无 侵入 地 实现 二 进 制 的 原始 
数据 备份 ， 这 样 的 备份 可 以 通过 启动 mysqld 实例 检查 所 有 的 表 进行 验证 。 有 时候 甚至 可 
以 一 石 二 鸟 : 可 以 在 开发 或 者 预 发 环境 每 天 将 备份 进行 还 原来 执行 恢复 测试 ， 然 后 再 将 
数据 导出 为 逻辑 备份 。 我 们 也 建议 备份 二 进 制 日 志 ， 并 且 尽 可 能 久 地 保留 多 份 备份 的 数 
据 和 二 进 制 文件 。 这 样 即使 最 近 的 备份 无 法 使 用 了 ， 还 可 以 使 用 较 老 的 备份 来 执行 恢复 
或 者 创建 新 的 备 库 。 


除了 提 到 的 许多 开源 工具 ， 也 有 很 多 很 好 的 商业 备份 工具 ， 其 中 最 重要 的 是 MySQL 
Enterprise Backup。 对 包括 在 GUI SQL 编辑 器 、 服 务 器 管理 工具 和 类 似 工 具 中 的 “ 备 
份 ”工具 要 特别 小 心 。 同 样 地 ， 有 一 些 出 品 “ 一 招 吃 遍 天 下 ”的 备份 工具 的 公司 ， 对 于 
它们 宣称 的 支持 MySQL 的 “MySQL 备份 插件 ”也 要 特别 小 心 。 我 们 需要 的 是 主要 为 
MySQL 设计 的 优秀 备份 工具 ， 而 不 是 一 个 支持 上 百 个 其 他 数据 库 并 恰巧 支持 MySQL 的 
工具 。 有 许多 备份 工具 的 供应 者 并 不 知道 或 明白 诸如 FLUSH TABLES WITH READ LOCK 操 
作对 数据 库 的 影响 。 在 我 们 看 来 ， 使 用 这 种 SQL 命令 的 方案 应 该 目 动 退出 “ 热 ” 备 份 的 
行列 。 如 果 只 使 用 InnoDB 表 ， 就 更 加 不 需要 这 类 工具 。 
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第 16 章 
MySQL 用 户 工 具 


MySQL 服务 器 发 行 包 中 并 没有 包含 针对 许多 常用 任务 的 工具 ， 例 如 监控 服务 器 或 比 
较 不 同 服务 器 间 数 据 的 工具 。 幸 运 的 是 ，Oracle 的 商业 版 提供 了 一 些 扩展 工具 ， 并 且 
MySQL 活跃 的 开源 社区 和 第 三 方 公司 也 提供 了 一 系列 的 工具 ， 降 低 了 自己 “重复 发 明 
轮子 ”的 需要 。 


16.1 接口 工具 


接口 工具 可 以 帮助 运行 查询 ， 创 建 表 和 用 户 ， 以 及 执行 其 他 日 常任 务 等 。 本 节 将 简单 介 
绍 一 些 用 于 此 用 途 的 最 流行 的 工具 。 一 般 可 以 用 SQL 查询 或 命令 做 所 有 这 些 或 其 中 大 部 
分 的 工作 一 一 我 们 这 里 讨论 的 工具 只 是 更 为 方便 ， 可 帮助 避免 错误 和 加 快 工作 。 


MySOL Workbench 
MySQL Workbench 是 一 个 一 站 式 的 工具 ， 可 以 完成 例如 管理 服务 器 、 写 查询 、 开 
发 存储 过 程 ， 以 及 Schema 设计 图 相关 的 工作 。 可 以 通过 一 个 插件 接口 来 编写 自 
己 的 工具 并 集成 到 这 个 工作 平台 上 ， 有 一 些 Python 脚本 和 库 就 使 用 了 这 个 插件 接 
H. MySQL Workbench 有 社区 版 和 商业 版 两 个 版 本 ， 商 业 版 只 是 增加 了 其 他 的 一 些 
高 级 特性 。 免 费 版 对 于 大 部 分 需要 早已 足够 了 。 在 http://www.mysql.com/products/ 
workbench/ 可 以 学 到 更 多 相关 的 内 容 。 

SOLyog 
SQLyog 是 MySQL 最 流行 的 可 视 化 工具 之 一 ， 有 许多 很 好 的 特性 。 它 与 MySQL 
Workbench 是 同 级 别 的 工具 ， 但 两 个 工具 都 有 一 些 对 方 没有 的 特性 。SQLyog 只 能 在 
微软 的 Windows 下 使 用 , 拥有 全 部 特性 的 版 本 需要 付费 , 但 有 限制 功能 的 免费 版 本 。 
关于 SQLyog 的 更 多 信息 可 以 参考 http://www.webyog.com。 
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phpMyAdmin 


phpMyAdmin 是 一 个 流行 的 管理 工具 ， 运 行 在 Web 服务 器 上 ， 并 且 提 供 基于 浏览 器 
HY MySQL 服务 器 访问 接口 。 尽 管 基 于 浏览 器 的 访问 有 时 很 好 , (E phpMyAdmin 是 
个 大 而 复杂 的 工具 ， 曾 被 指责 有 许多 安全 问题 。 对 此 要 格外 小 心 。 我 们 建议 不 要 安 
装 在 任何 可 以 从 互联 网 访问 的 地 方 。 更 多 信息 请 参考 http://sourceforge.net/projects/ 
phpmyadmin/, 
Adminer 

Adminer 是 个 基于 浏览 器 的 安全 的 轻 量 级 管理 工具 ， 它 与 phpMyAdmin 同类 。 其 开 
发 者 将 其 定位 为 phppMyAdmin 的 更 好 的 替代 品 。 尽 管 它 看 起 来 更 安全 ， 但 我 们 仍 建 
议 安 装 在 任何 可 公开 访问 的 地 方 时 要 谨慎 。 更 多 详情 可 参考 http-//www.adminerorg. 


RO HAE 
16.2 命令 行 工 具 集 
MySQL 包含 了 一 些 命令 行 工 具 集 ， 例 如 mysqladmin 和 mysqlcheck。 这 些 在 MySQL F 
册 上 都 有 提 及 和 记录 。MySQL 社区 同样 创建 了 大 量 高 质量 的 工具 包 ， 并 有 很 好 的 文档 
支撑 这 些 实用 工具 集 。 


Percona Toolkit | 
Percona Toolkit 是 MySQL 管理 员 必 备 的 工具 包 。 它 源 自 Baron 早期 的 工具 包 
Maatkit 和 Aspersa， 很 多 人 认为 这 两 个 工具 应 该 是 正式 的 MySQL 部 署 必须 强制 要 
求 使 用 的 。Percona Toolkit 包括 许多 针对 类 似 日 志 分 析 、 复制 完整 性 检测 ,数据 同步 、 
模式 和 索引 分 析 、 查 询 建 议和 数据 归档 目的 的 工具 。 如 果 刚 开始 接触 MySQL， 我 
们 建议 首先 学 习 这 些 关 键 的 工具 : pt-mysql-summary, pt-table-checksum, pt-table- 
sync 和 pt-query-digest。 更 多 信息 可 参考 http://www.percona.com/software/。 

Maatkit and Aspersa | 
这 两 个 工具 约 从 2006 年 以 某 种 形式 出 现 , 两 者 都 被 认为 是 MySQL 用 户 的 基本 工具 。 
它们 现在 已 经 并 入 Percona Toolkit。 

The openark kit 
Shlomi Noach 的 openark kit (http://code.openark.org/forge/openark-kit) 包含 了 可 以 
用 来 做 一 系列 管理 任务 的 Python 脚本 。 

MySQL Workbench 工具 集 
MySQL Workbench 工具 集中 的 某 些 工具 可 以 作为 单独 的 Python 脚本 使 用 。 可 参考 
https:/Naunchpad.net/mysql-utilities - 


除了 这 些 工具 外 ， 还 有 其 他 一 系列 设 有 太 正 式 包 装 和 维护 的 工具 。 许 多 杰出 的 MySQL 
社区 成 员 时 不 时 地 贡献 工具 , 其 中 大 多 数 托管 在 他 们 自己 的 网 站 或 MySQL Forge (Attp:// 
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ee com 上 。 可 以 通过 不 时 地 查看 Planet MySQL 博客 聚合 器 获取 大 量 的 信息 
(http://planet.mysql.com)， 但 不 幸 的 是 这 些 工具 没有 一 个 集中 的 目录 。 


16.3 SQL 实用 集 
服务 器 本 身 也 内 置 有 一 系列 免费 的 附加 组 件 和 实用 集 可 以 使 用 ， 其 中 一 些 确实 相当 强大 。 


common_schema 
Shlomi Noach 的 common_schema 项 目 (http://code.openark.org/forge/common_ 
schema) 是 一 套 针 对 服务 器 脚本 化 和 管理 的 强大 的 代码 和 视图 。common_schema 对 
于 MySQL 好 比 jQuery 对 于 JavaScript. 

mysql-sr-lib 
Giuseppe Maxia 4 MySQL 创建 了 一 个 存储 过 程 的 代码 库 ， 可 以 在 http://www. 
nongnu. org/mysql-sr-lib/ 找到 。 

MySQL UDF 仓库 
Roland Bouman 建立 了 一 个 MySQL 自 定义 函数 的 收藏 馆 ， 可 以 在 http://www. 
mysqludf.org TRA, 

MySQL Forge 
在 MySQL Forge 上 (http://forge.mysql.com) ,可 以 找到 上 百 个 社区 贡献 的 程序 .脚本 、 
代码 片断 、 实 用 集 和 技巧 及 陷阱 。 


16.4 监测 工具 


以 我 们 的 经 验 来 看 ， 大 多 数 MySQL 商店 需要 提供 两 种 类 型 的 监测 工具 : 健康 监测 工 
具 一 一 检测 到 异常 时 告警 一 一 和 为 趋势 、 诊 断 、 问 题 排 查 、 容 量规 划 等 记录 指标 的 工具 。 
大 多 数 系统 仅 在 这 些 任 务 中 的 一 个 方面 做 得 很 好 ， 而 不 能 两 者 兼顾 。 更 不 垃 的 是 ， 有 十 
几 种 工具 可 选 ， 使 得 评估 和 选择 一 款 适 合 的 工具 非常 耗 时 。 


许多 监控 系统 不 是 专门 为 MySQL 服务 器 设计 。 它 们 是 通用 系统 ， 用 于 周期 性 地 检测 许 
多 种 类 型 的 资源 ， 从 机 器 到 路 由 再 到 软件 (例如 MySQL)。 它 们 一 般 有 某 些 类 型 的 插件 
架构 ， 经 常会 伴随 有 一 些 MySQL 插件 。 


一 般 会 在 专用 服务 器 上 安装 监控 系统 来 监测 其 他 服务 器 。 如 果 是 监控 重要 的 系统 ， 它 很 
快 会 变 成 架构 中 至 关 重 要 的 一 部 分 ， 因 此 可 能 需要 采取 额外 的 步骤 ， 例 如 做 监控 系统 本 
身 的 灾 备 。 
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m> 16.4.1 开源 的 监控 工具 
下 面 是 一 些 最 受 欢迎 的 开源 集成 监控 系统 。 


Nagios 
Nagios (http://www.nagios.org) 也 许 是 开源 世界 中 最 流行 的 问题 检测 和 告警 系统 。 
它 周期 性 检测 监控 的 服务 器 并 将 结果 与 默认 或 自 定 义 的 阐 值 相 比较 。 如 果 结果 超出 
了 限制 ，Nagios 会 执行 某 个 程序 并 且 (或 ) 把 问题 的 告警 发 给 某 些 人 。Nasgios 的 
”通信 和 告警 系统 可 以 将 告警 发 给 不 同 的 联系 人 ， 改 变 告警 ， 或 根据 一 天 中 的 时 间 和 
其 他 条 件 将 其 发 送 到 不 同 的 位 置 ， 并 且 对 计划 内 的 宕 机 可 以 特殊 处 理 。Nagios 同样 
理解 服务 之 间 的 依赖 ， 因 此 ， 如 果 是 因为 中 间 的 路 由 层 宕 机 或 者 主机 本 身 宕 机 导致 
MySQL 实例 不 可 用 ，Nagios 不 会 发 送 告警 来 烦 你 。 
Nagios 能 将 任何 一 个 可 执行 文件 以 插件 形式 运行 ， 只 要 给 予 其 正确 参数 就 可 得 到 正 
确 输出 。 因 此 ，Nagios 插件 在 多 种 语言 中 都 存在 ， 例 如 shell, Perl, Python, Ruby 
和 其 他 脚本 语言 。 就 算 找 不 到 一 个 能 真正 满足 你 需求 的 插件 ， 自 己 创 建 一 个 也 很 简 
单 。 一 个 插件 只 需要 接收 标准 的 参数 ， 以 一 个 合适 的 状态 退出 ， 然 后 选择 性 地 打印 
Nagios 捕获 的 输出 。 
然而 ，Nagios 也 有 一 些 严重 的 缺点 。 即 使 你 很 了 解 它 ， 也 仍然 难以 维护 。 它 将 所 有 
配置 保存 在 文件 而 不 是 数据 库 中 。 文 件 有 一 个 特别 容易 出 错 的 语法 ， 当 系统 增长 和 
发 展 时 ， 修 改 配置 文件 就 很 费事 。Nagios 可 扩展 性 并 不 好 ; 你 可 以 很 容易 地 写 出 
监控 插件 ， 但 这 也 就 是 你 能 够 做 的 一 切 。 最 后 ， 它 的 图 形 化 、 趋 势 化 和 可 视 化 能 力 
都 有 限 。Nagios 将 一 些 性 能 和 其 他 数据 存储 到 MySQL 服务 器 中 ， 一 般 从 中 生成 图 
形 ， 但 并 不 像 其 他 一 些 系 统 那么 灵活 。 因 为 不 同 “ 政 见 ” 的 原因 ， 使 得 上 面 所 有 的 
问题 继续 变 得 更 精 。 因 为 或 真实 、 或 脐 出 的 涉及 代码 、 参 与 者 的 问题 ，Nagios 至 少 
分 化 出 了 两 个 分 支 。 两 个 分 支 的 名 字 分 别 是 Opsview (http://www.opsview.com) 和 
Icinga (http://www.icinga.org)。 它 们 比 Nagios 更 受到 人 们 的 亲 睐 。 
有 一 些 专门 介绍 Nagios 的 书籍 ; 我 们 倾向 于 Wolfgang Barth 的 Nagios System and 
Network Monitoring (No Starch 出 版 公司 )。 
Zabbix 
Zabbix 是 一 个 同时 支持 监控 和 指标 收集 的 完整 系统 。 例 如 ， 它 将 所 有 配置 和 其 他 数 
据 存储 到 数据 库 而 不 是 配置 文件 中 。 它 存储 了 比 Nagios 更 多 的 数据 类 型 ， 因 而 可 以 
得 到 更 好 的 趋势 和 历史 报表 。 其 网 络 画图 和 可 视 能 力也 比 Nagios 更 强 , 配置 更 简单 ， 
更 灵活 ， 且 更 具 可 扩展 性 。 可 参考 http:/www.zabbix.com 获取 更 多 信息 。 
Zenoss 
Zenoss 是 用 Python 5H), HA—-*+EFORSHAPARM, AS Ajax, KEC 
更 快 和 更 高 效 。 它 可 以 自动 发 现 网 络 上 的 资源 ， 并 将 监控 、 告 警 、 趋 势 、 绘 图 和 记 
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孙 历 史 数 据 整合 到 了 一 个 统一 的 工具 中 。Zenoss 默认 使 用 SNMP 来 从 远程 服务 器 上 
收集 数据 ， 但 也 可 以 使 用 SSH， 并 且 支 持 Nagios 插件 。 更 多 信息 请 参考 http://www. 
zenoss.com, 
Hyperic HQ 
Hyperic HQ 是 一 个 基于 Java 的 监控 系统 ， 比 起 同 级 别 的 其 他 大 部 分 系统 ， 它 更 称 得 
上 是 企业 级 监控 。 像 Zenoss 一 样 , 它 可 以 自动 发 现 网 络 上 的 资源 和 支持 Nagios 插件 ， 
但 它 的 逻辑 组 织 和 架构 不 同 ， 有 点 “笨重 ”。 更 多 信息 可 参考 htip://www.hyperic. 
com, — 
OpenNMS 
OpenNMS 也 是 用 Jav 开发 ， 有 一 个 活跃 的 开发 社区 。 它 拥有 常规 的 特性 ， 例 如 监 
控 和 告警 ， 但 同样 也 增加 了 绘图 和 趋势 功能 。 它 的 目标 是 高 性 能 、 可 扩展 、 自 动 化 
和 灵活 。 像 Hyperic 一 样 ， 它 也 致力 于 为 大 型 和 关键 系统 做 企业 级 监控 。 更 多 信息 
请 参考 http://www.opennms.ore. 
Groundwork Open Source 
Groundwork Open Source 用 一 个 可 移植 的 接口 把 Nagios 和 其 他 几 个 工具 整合 到 了 一 
个 系统 中 。 对 于 这 个 工具 最 好 的 描述 是 : 如 果 你 是 Nagios、Cacti 和 其 他 几 个 工具 方 
面 的 专家 ， 并 且 花 了 许多 时 间 将 它们 整合 一 起 ， 那 很 可 能 你 是 在 闭门造车 。 更 多 信 
息 可 参考 http://www.gwos.com. 


相 比 于 集 所 有 功能 于 一 身 的 系统 ， 还 有 一 系列 软件 专注 于 收集 指标 和 画图 以 及 可 视 化 ， 
而 不 是 进行 性 能 监控 检查 。 他 们 中 有 很 多 是 建立 在 RRDTool(htip:/www.rrdtool.org) 之 上 ， 
存储 时 序数 据 到 轮 询 数据 库 (RRD) 文件 中 。RRD 文件 自动 聚集 输入 数据 ， 对 没有 预 
期 传送 的 输入 值 进行 插值 ， 并 有 强大 的 绘图 工具 可 以 生成 漂亮 有 特色 的 图 。 有 很 多 基于 
RRDTool 的 系统 ， 下 面 是 其 中 最 受 欢迎 的 几 个 。 


MRTG 
Multi Router Traffic Grapher 或 称 MRTG (http://oss.oetiker.ch/mrtg/), BBW 
于 RRDTool 的 系统 。 最 初 是 为 记录 网 络 流 量 而 设计 的 ， 但 同样 可 以 扩展 到 用 于 对 其 
他 指标 进行 记录 和 绘图 。 

Cacti 
Cacti (http://www.cacti.net) 可 能 是 最 流行 的 基于 RRDTool 的 系统 。 它 采用 PHP 网 
页 来 与 RRDTool 进行 交互 ， 并 使 用 MySQL 数据 库 来 定义 服务 器 、 揪 件 、 图 像 等 。 
因为 是 模板 驱动 ， 故 而 可 以 定义 模板 然后 应 用 到 系统 上 。Baron 为 MySQL 和 其 他 系 
统 写 了 一 组 非常 流行 的 模板 ; 更 多 信息 请 参考 http-//code.google.com/p/mysql-cacti- 
templates/。 这 些 也 已 经 被 移植 到 Munin、OpenNMS 和 Zabbix., 
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Ganglia 
Ganglia (http://ganglia.sourceforge.net) 与 Cacti 类 似 ， 但 是 为 监控 集群 和 网 格 系统 
而 设计 ， 所 以 可 以 汇总 查看 许多 服务 器 的 数据 ， 如 果 需 要 也 可 以 细 分 查看 单 台 服务 
器 的 详细 数据 。 

Munin 
Munin (http://munin.projects.linpro.no) 收集 数据 并 存 和 人 RRDTool 中 ， 然 后 以 几 个 
不 同 级 别 的 粒度 生成 数据 图 。 它 从 配置 中 生成 静态 HTML 文件 ， 因 此 可 以 很 容 多 地 
浏览 和 查看 趋势 。 定 义 一 个 图 形 较 容易 ; 只 需要 创建 一 个 插件 脚本 ， 其 命令 行 帮助 
输出 有 一 些 Munin 可 以 识别 的 特别 语法 的 画图 指令 。 


基于 RRDTool 的 系统 有 些 限 制 ， 例 如 不 能 用 标准 查询 语言 来 查询 存储 的 数据 ， 不 能 永久 


保留 数据 ， 存 在 某 些 数据 不 能 轻松 地 使 用 简单 计数 器 和 标准 数值 表示 的 问题 ， 需 要 预先 


定义 指标 和 图 形 等 。 理 想 情况 下 ， 我 们 需要 的 监控 系统 可 以 接受 任何 发 送 给 它 的 指标 ， 
而 不 需要 预先 进行 定义 ， 并 且 后 续 可 以 绘制 任意 需要 的 图 形 ， 也 不 需要 预先 进行 定义 。 
可 能 我 们 所 看 到 的 最 接近 的 系统 是 Graphite (http://graphite.wikidot.com) 。 


这 些 系统 都 可 以 用 来 对 MySQL 收集 、 记 录 和 绘制 数据 图 表 并 且 生 成 报表 ， 有 着 不 同 程 
度 的 灵活 性 ， 目 标 也 稍微 有 些 不 同 。 但 它们 都 缺乏 真正 可 以 在 问题 出 现时 及 时 告警 的 灵 
活性 。 


我 们 提 到 的 大 多 数 系统 的 主要 问题 是 ， 它 们 明显 是 由 那些 因为 现 有 系统 不 能 满足 他 们 所 
有 需求 的 人 设计 的 ， 因 此 他 们 又 重复 设计 了 另 一 个 无 法 完全 满足 其 他 人 的 所 有 需求 的 系 
统 。 大 部 分 这 样 的 系统 都 有 一 些 基 础 的 限制 ， 例 如 使 用 一 个 奇怪 的 数据 模型 存储 内 部 数 
据 ， 而 寻 致 在 很 多 场合 都 无 法 很 好 地 工作 。 在 很 多 时 候 ， 这 都 令 人 诅 下 ， 使 用 这 些 系统 
都 像 是 把 一 个 圆 形 的 钉子 第 到 了 一 个 方形 的 铜 里 面 。 


16.4.2 商业 监控 系统 

尽管 我 们 知道 许多 MySQL 用 户 热 圳 使 用 开源 工具 ， 但 也 有 许多 人 愿意 为 合适 的 软件 买 
单 ， 只 要 这 些 软件 可 以 让 工作 更 好 地 完成 ， 为 他 们 节省 时 间 ， 减 少 烦恼 。 下 面 是 一 些 可 
以 利用 的 商业 选 件 。 


MySQL Enterprise Monitor 
MySQL Enterprise Monitor 包含 在 Oracle 的 MySQL 支持 服务 中 。 它 将 监控 、 指 标 
和 画图 、 咨 询 服务 和 查询 分 析 等 特性 整合 到 了 一 个 工具 中 。 通 过 在 服务 右上 使 用 
agent 来 监测 状态 计数 器 (也 包含 操作 系统 的 关键 指标 )。 它 能 以 两 种 方式 抓 取 查 询 : 
通过 MySQL 代理 (MySQL Proxy)， 或 使 用 合适 的 MySQL 连接 器 ， 例 如 Java 的 


640 | 第 16 章 MySQL 用 户 工 具 


Connector/J 或 PHP 的 MySQLi。 尽 管 是 为 监控 MySQL 而 设计 的 ， 但 某 种 程度 上 也 
可 以 进行 扩展 。 同 样 ， 这 个 工具 也 无 法 监控 基础 架构 中 所 有 的 服务 器 和 所 有 的 服务 。 
更 多 信息 请 参考 http-//www.mysql.com/products/enterprise/monitor. html. 

MONyog | 
MONyog (http://www.webyog.com) 是 一 个 运行 在 桌面 上 的 基于 浏览 器 且 无 agent 的 
监控 系统 。 它 会 启动 一 个 HTTP 服务 器 ， 然 后 就 可 以 通过 浏览 器 来 使 用 此 工具 。 

New Relic 
New Relic (http://newrelic.com) 是 一 个 托管 式 的 软件 即 服务 (Saas) 的 应 用 性 能 管 
理 系 统 ， 它 可 以 分 析 整 个 应 用 的 性 能 ， 从 应 用 代码 (采用 Ruby, PHP, Java 和 其 他 
语言 ) 到 运行 在 浏览 器 上 的 JavaScript， 到 数据 库 的 SQL 调用 ， 甚 至 是 服务 器 的 磁 
盘 空 间 ，CPU 利用 率 和 其 它 指标 。 

Circonus 
Circonus (https://circonus.com) 是 一 个 源 于 OmniTI 的 托管 式 的 软件 即 服务 (SaaS) 
的 指标 和 告警 系统 。 通 过 agent 从 一 个 或 多 个 服务 器 上 收集 指标 并 转发 到 Circonus, 
然后 就 可 以 通过 一 个 基于 浏览 器 的 仪表 盘 来 查看 。 

Monitis 
Monitis (http://monitis.com) 是 另外 一 个 云 托管 式 的 软件 即 服 务 (SaaS) 的 监控 系 
统 。 它 被 设计 成 监控 “一 切 *“， 这 意味 着 它 有 点 普遍 性 。 它 有 一 个 入 门 级 的 免费 版 
Monitor.us (http://mon.itor.us)， 也 有 支持 MySQL 的 插件 。 

Splunk i 
Splunk (Attp://www.splunk.com) Æ&—A AGRE RSE, ARBRE 
中 所 有 机 器 生成 的 数据 并 进行 运营 分 析 。 

Pingdom 
Pingdom (http://www.pingdom.com) 从 世界 的 多 个 位 置 来 监控 网 站 的 可 用 性 和 性 能 。 
实际 上 有 许多 像 Pingdom 一 样 的 服务 ， 我 们 并 不 需要 特别 推荐 某 一 个 这 样 的 服务 ， 
但 是 我 们 确实 建议 使 用 一 些 外 部 的 监控 服务 ， 以 便 让 你 在 网 站 不 可 用 时 能 够 及 时 得 
到 通知 。 很 多 类 似 的 服务 远 不 止 Ping 或 获取 网 页 。 


还 有 许多 其 他 的 商业 监控 工具 一 一 我 们 可 以 凭 印象 列举 出 十 几 个 或 更 多 。 对 所 有 监控 系 
统 而 言 ， 要 注意 的 一 点 是 它们 对 服务 器 的 影响 。 有 些 工 具 相 当 直 白 ， 因 为 它们 由 一 些 没 
有 实际 的 大 型 高 负载 MySQL 系统 经 验 的 公司 设计 。 例 如 ， 我 们 不 止 一 次 通过 禁止 每 分 
钟 对 所 有 的 数据 库 执 行 一 次 SHOW TABLE STATUS 的 监控 功能 来 解决 突 发 事件 。( 这 个 命 
令 在 高 IO 限制 的 系统 上 特别 有 破坏 性 。) 频繁 查询 INFORMATION_SCHEMA 表 的 工具 也 会 
导致 负面 影响 。 
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16.4.3 Innotop 的 命令 行 监控 

有 一 些 基 于 命令 行 的 监测 工具 ， 它 们 大 部 分 在 某 种 方面 模拟 了 UNIX 中 的 top 工具 。 其 
中 最 精致 和 最 胜任 的 是 innotop (http://code.google.com/p/innotop/)， 我 们 将 详细 探讨 。 
此 外 ， 还 有 几 个 其 他 的 工具 ， 例 如 mtop (http://mtop.sourceforge.net), mytop (http:// 
jeremy.zawodny.com/mysql/mytop/) 和 一 些 基 于 网 页 的 mytop 克隆 版 本 。 


尽管 mytop 是 MySQL 上 最 原始 的 top 克隆 ,但 innotop bk mytop 拥有 更 多 功能 ， 这 也 是 
我 们 看 重 innotop 的 原因 。 


本 书 的 作者 之 一 Balon Schwartz 编写 了 innotop。 它 展示 了 服务 器 正在 发 生 事情 的 实时 更 
新 视图 。 别 去 理会 它 的 名 称 ， 实 际 上 它 不 仅仅 用 于 监控 InnoDB， 还 可 以 监控 MySQL fE 
何其 他 的 方面 。 它 也 能 同时 监控 多 个 MySQL 实例 ， 极 具 可 配置 性 和 可 扩展 性 。 


它 的 功能 特性 包括 以 下 这 些 : 


。 事务 列表 可 以 显示 InnoDB 当前 的 全 部 事务 。 

© 查询 列表 可 以 显示 当前 正在 运行 的 查询 。 

e 可 以 显示 当前 锁 和 饥 等 待 的 列表 。 

© 以 相对 值 显 示 服 务 器 状态 和 变量 的 汇总 信息 。 

。 有 多 种 模式 可 用 来 显示 InnoDB 内 部 信息 ， 例 如 缓冲 区 、 死 锁 、 外 键 错 误 、IO 活动 
情况 、 行 操作 、 信 号 量 ， 以 及 其 他 更 多 的 内 容 。 

。 复制 监控 ， 将 主 服务 器 和 从 服务 器 的 状态 显示 在 一 起 。 

。 显示 任意 服务 器 变量 的 模式 。 

© 服务 器 组 可 以 更 方便 地 组 织 多 人 台 服 务 器 。 

。 在 命令 行 脚 本 下 可 以 使 用 非 交 互 式 模式 。 


innotop 的 安装 很 容易 ， 可 以 从 操作 系统 的 软件 仓库 安装 ， 也 可 以 从 htip://code.google. 
com/p/innotop/ 下 载 到 本 地 ， 然 后 解压 缩 ， 运 行 标准 的 make install 安装 过 程 。 

perl Makefile.PL 

make install . 
一 旦 安装 完成 ， 就 可 以 在 命令 行 里 执行 innotop， 然 后 它 会 引导 你 完成 连接 到 MySQL 实 
例 的 过 程 。 引 导 过 程 会 读 取 ~/.my.cnf 选 项 文件 ， 这 样 ， 除 了 输入 服务 器 的 主机 名 和 按 几 
次 Enter 键 之 外 ,什么 都 不 用 做 。 连 接 完成 以 后 ,就 处 在 T (InnoDB Transaction) 模式 了 ， 
这 时 ， 应 该 可 看 到 InnoDB 事务 列表 ， 如 图 16-1 所 示 。 
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History Versions Unda Dirty Guf Used Bufs Txns MaxTy OMe Ltr 
44 169 Qa 25.73% 94.35 13 49:2 


Txn Status Time Undo Query Text 
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fey. oe 
i oe earl) 





16-1: 处 在 T (InnoDB Transaction) 模式 的 innotop 


日 己 的 过 滤器 或 者 定制 内 部 的 过 滤器 )。 在 图 16-1 里 ， 大 多 数 事务 都 已 经 被 过 滤 掉 了 ， 
只 显示 出 了 当前 活动 的 事务 。 可 以 按 i 键 禁 掉 过 滤 , 让 数量 众多 的 事务 信息 填 满 整个 屏 蒂 。 


innotop 在 这 个 模式 下 会 显示 头 部 信息 和 主线 程 列表 。 头 部 信息 里 显示 一 些 InnoDB 的 总 
体 信息 ， 例 如 ， 历 史 清 单 的 长 度 、 还 未 清除 的 InnoDB 事务 数目 、 缓 冲 池 中 脏 缓冲 所 占 
的 百分比 等 。 


你 要 按 的 第 一 个 键 应 该 是 问号 〈《?) ， 以 查看 帮助 信息 。 虽 然 在 屏幕 上 显示 出 的 帮助 内 容 
会 根据 当前 模式 的 不 同 而 不 同 ， 但 是 每 一 个 活动 的 键 都 总 是 会 显示 出 来 ， 因 此 能 看 到 所 
有 可 执行 的 动作 。 图 16-2 显示 的 是 T 模式 下 的 帮助 信息 。 


在 这 里 不 会 详细 讲解 所 有 的 模式 ， 但 还 是 可 以 从 帮助 信息 里 看 出 ，innotop 有 许 许多 多 的 
功能 特性 。 


这 里 唯一 要 提 及 的 是 一 些 基本 的 自 定 义 功能 ， 告 诉 你 如 何 监 控 想 要 监控 的 信息 。innotop 
的 强大 功能 之 一 就 是 能 够 解释 用 户 定 义 的 表达 式 ， 例 如 Uptime/Questions 是 生成 每 秒 钟 
的 查询 指标 。 它 会 显示 自 服 务 器 启动 以 来 和 /或 自 上 次 采样 之 后 递增 累加 的 结果 值 。 


这 使 得 往 显示 表格 里 添加 自己 的 列 方便 很 多 。 例 如 ， 在 Q (Query List) 模式 下 ， 头 部 信 
息 能 显示 出 服务 器 的 一 些 总 体 信 息 。 让 我 们 看 看 怎么 将 它 修改 一 下 ， 使 它 能 显示 出 索引 
键 缓存 有 多 满 。 JAB) innotop, FR F QE A Q 模式。 这 时 的 操作 结果 看 起 来 像 图 16-3 一 样 。 


这 个 屏幕 截图 只 截取 了 一 部 分 ， 因 为 在 这 个 练习 里 ， 我 们 对 查询 列表 没有 兴趣 ; 我 们 只 
关心 头 部 信息 。 





16.4 监测 工具 | 643 


witch to a different made: 
E Innate Buffers hi 
O Tnnebe Ceadlocks n 
F TnooeGe FE err 


Replication 
Open Tables 
Query List 
InnotE Row 


) 
I InnobE TO Info CR 


etilans: 

3 Toggle the innotap process 
© Choose visible columns 
Chane refresh interval 
Explain a thread's query 
Show a thread's full query 
Toggle the header on and off 
Toggle inactive transactions 


} Switch to the Text 
Show License and warranty 
s Select/create server groups 
fp $ Edit configuration settings 
Press any key to continued 


Server Group 


16-2: innotop 帮助 信息 


Load 
E CL 
0.00 


OPS 
40.47 


Wher 


Now 
Total, 


TO Lh ey Hast 





616-3: Q 模 式 〈 查 询 列 表 ) 下 的 innotop 
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统计 (统计 自从 上 次 innotop 用 服务 器 上 的 新 数据 刷新 后 的 累计 增 


量 ) 和 “总 计 ” 统 计 (统计 自 MySQL 服务 器 启动 以 来 所 有 的 活动 ， 这 个 实例 中 是 25 天 
前 ) 。 头 部 的 每 一 列 都 是 来 自 SHOW STATUS 和 SHOW VARIABLES 相对 应 的 变量 值 。 图 16-3 
中 显示 的 头 部 是 内 建 的 ,但 也 很 容易 增加 自 定 义 的 。 需 要 做 的 只 是 增加 一 列 到 头 部 “ 表 。 
按 ^ 键 来 打开 表 编 辑 器 ， 然 后 在 提示 符 后 输入 q_header 来 编辑 头 部 表 (图 16-4) 。 由 于 
AEA Tab 键 自 动 补 齐 功能 ， 因 此 可 以 融入 q 然 后 按 Tab 键 来 补充 完成 整个 词 。 
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Choose fron | 
processlist MySQL Process List 


(header -mode Header 





| 
图 16-4: 增加 一 个 头 部 开始 ) 


在 此 之 后 ， 你 将 会 看 到 Q 模式 头 部 的 表 定义 (图 16-5)。 该 表 定 义 显示 了 表 的 列 。 第 
一 列 被 选中 我 们 可 以 移动 选项 ， 重 新 排序 和 编辑 列 ， 还 可 做 其 他 的 很 多 事情 ( 按 ? 
键 可 以 看 到 一 个 完整 的 列表 ) ， 但 我 们 只 打算 创建 一 个 新 列 。 按 n 键 然 后 输入 列 名 (图 
16-6). 


aN Ue 


enone Ey; 


Editing table definition for O-mode Header. 

name hdr label ; 
| Connection from which the data 

when When Time scale when 
load we Load Server load hour-24 Threads ce 
qpa i OPS . Hew many querles sec Questions /Uptime | 
3 Low Slow © How many slow queries Slow queries 
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key bufier hit EtCacheHit Key cache hit ratio | Iae y _reads/ (Key 
bps in >ù Basin = §ytes per second received by t dps 
bps out Bpsdut Bytes per secand sent by the s Bytes ‘sent /liptine 





图 16-5: 增加 头 部 (选择 ) 


oe colum. This name 1s not disp ay ; 3 sey 
internal reference . It can only contain lowarcase letters, numbers, arid 
unders copes, 





Enter column name: kc used 


图 16-6: 增加 头 部 (命名 列 ) 


接着 ， 输 入 列 的 头 部 ， 它 将 在 列 的 顶部 显示 (图 16-7)。 最 后 ， 选 择 列 源 。 这 是 一 个 
innotop 内 部 编译 为 函数 的 表达 式 。 你 可 以 使 用 SHOW VARIABLES 和 SHOW STATUS 中 对 应 
变量 的 名 字 ， 就 像 是 方程 中 的 变量 一 样 。 我 们 使 用 了 一 些 括号 和 Perl 式 “或 ”默认 值 以 
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防止 被 零 除 ， 除 此 而 外 这 个 等 式 相 当 直 白 。 我 们 同样 可 以 使 用 innotop 中 的 percent ( ) 
转换 来 以 百分比 形式 格式 化 结果 列 ; 更 多 信息 请 参考 innotop 的 文档 。 16-8 显示 了 这 
个 表达 式 。 





图 16-7: 增加 头 部 ( 列 的 文本 ) 


alum's data 


Enter column source: percant(] - (they blocks unused Y key cache block size) y 
key key buffer sizs||1)) 





16-8: 增加 头 部 (要 计算 的 表达 式 ) 


按 Enter 键 ， 你 将 会 和 之 前 一 样 看 到 表 的 定义 ， 但 是 在 底部 有 了 新 增加 的 列 。 按 几 次 + 
键 将 它 往 列表 上 方 移 ， 挨 着 key buffer hit 列 ， 然 后 按 q 键 退出 表 编 辑 器 。 瞧 ， 新 的 
Fil te TE KCacheHit 和 BpsIn 之 间 (图 16-9)。 可 以 通过 定制 innotop 很 容易 地 监控 想 要 的 
信息 。 如 果 它 真 的 不 能 满足 你 的 需求 ， 甚 至 还 可 以 编写 对 应 的 插件 。 更 多 文档 见 Pttp:V 


code.google.com/p/innotop/. 


wher Load QPS Flew QcacheHit KCachstit Ktachellsed @psin 
How ,00 298.31 G G2. FS OG, OG 0, O 157. Gk 
Total 0.00 146,43 11.92k G., BOR ly 18.875 110, 72k 


ID Wiser Host JE Time  Queryi 
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1 6. 5 总 结 


好 的 工具 对 管理 MySQL 至 关 重 要 。 推 荐 使 用 一 些 已 经 可 用 、 广 泛 测 试 过 、 流 行 的 工具 ， 
例如 Percona Toolkit (旧名 Maatkit)。 当 接触 新 的 服务 器 时 ， 实 践 中 我 们 首先 要 做 的 是 
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运行 pt-summary 和 pt-mysql-summary, WRE-BIRSBBEUE, ARREADA 
终端 下 运行 innotop 来 观察 它 以 及 任何 相关 的 服务 器 。 


监控 工具 是 另外 一 个 更 复杂 的 话题 ， 这 是 由 于 它们 对 于 管理 非常 重要 。 如 果 你 是 一 名 开 
源 倡 导 者 ， 想 使 用 开源 的 监控 系统 ， 或 许可 以 尝试 Nagios 结合 带 Baron 的 Cacti 模板 的 
Cacti, 或 者 尝试 Zabbix ,前 提 是 作 不 介意 复杂 的 接口 。 如 有 果 想 要 监控 MySQL 的 商业 工具 ， 
MySQL Enterprise Monitor 可 以 胜任 ， 我 们 知道 有 很 多 用 户 使 用 得 很 好 。 如 果 想 监控 整 
个 环境 和 其 中 所 有 软 硬 件 信息 ， 你 可 能 需要 自己 去 做 一 些 调查 一 一 这 个 话题 超出 了 本 书 
讨论 的 范围 。 
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附录 A 


MySQL 分 支 与 变种 


在 第 1 章 中 ， 我 们 已 经 讨论 过 MySQL 的 历史 : 先 被 Sun 公司 收购 ， 然 后 再 被 Oracle 

公司 收购 ， 以 及 它 怎 样 成 功 度 过 了 这 些 管理 职务 上 的 变动 。 这 个 故事 有 太 多 事情 可 讲 。 

MySQL 不 再 只 可 从 Oracle 获取 。 在 两 次 转让 的 过 程 中 ， 出 现 了 好 几 个 MySQL 变种 。 

尽管 大 部 分 人 都 只 愿意 要 Oracle“ 官 方 ”版 本 的 MySQL， 但 这 些 变种 非常 重要 ， 并 且 

对 所 有 MySQL 用 户 产 生 了 一 个 很 大 的 改变 一 一 其 至 是 那些 从 来 没有 打算 使 用 它们 的 用 
户 。 


在 过 去 几 年 里 , 出 现 了 几 个 MySQL 变种 ,但 到 目前 为 止 主要 有 三 个 久 经 考验 的 主流 变种 . 
Percona Server, MariaDB 和 Drizzle。 它 们 都 有 活跃 的 用 户 社区 和 某 种 程度 上 的 商业 支持 ， 
均 由 独立 的 服务 供应 商 支持 。 


作为 Percona Server 的 创建 者 ， 我 们 有 一 定 的 倾向 性 ， 但 我 们 认为 这 个 附录 相当 客观 ， 
因为 我 们 对 所 有 的 MySQL 变种 都 提供 服务 、 支 持 、 咨 询 、 培 训 和 工程 部 署 。 我 们 还 邀 
请 了 Drizzle 的 创建 者 Brian Aker 和 MariaDB 的 创建 者 Monty Widenius 来 参与 到 这 个 附 
东 的 编写 ， 因 此 这 并 非 我 们 一 家 之 言 。 


Percona Server 


Percona Server (http://www.percona.com/software/) 因 我 们 致力 于 解决 客户 问题 而 衍生 。 
在 本 书 的 第 二 版 中 ， 我 们 提 到 了 我 们 为 改进 MySQL 服务 器 的 日 志方 法 所 做 的 补丁 。 那 
正 是 Percona Server 的 起 源 。 当 遇 到 用 其 他 方法 都 不 能 解决 的 问题 时 ， 我 们 就 去 修改 服 
务 器 源码 。 


Percona Server 有 三 个 主要 的 目标 。 680 
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透明 
增加 允许 用 户 更 紧密 地 查看 服务 器 内 部 信息 和 行为 的 方法 。 包 含 的 特性 有 类 似 SHOW 
STATUS 中 的 计数 器 ，INFORMATION_SCHEMA 中 的 表 ， 以 及 慢 查 询 日 志 中 特别 增加 的 详 
细 信 息 。 
性 能 
Percona Server 包含 许多 性 能 和 可 扩展 性 方面 的 改进 。 原 始 性 能 非常 重要 ， 但 
Percona Server 还 加 强 了 性 能 的 可 预测 性 和 稳定 性 。 其 中 主要 集中 于 InnoDB. 
操作 灵活 性 
Percona Server 包含 许多 移 除 限制 的 特性 。 尽 管 某 些 限制 看 起 来 不 起 眼 ， 但 这 些 限 制 
可 能 会 使 操作 人 员 和 系统 管理 员 在 让 MySQL 作为 架构 的 一 部 分 而 可 靠 并 稳定 运行 
时 ， 感 到 非常 困难 。 


Percona Server 是 个 与 MySQL 向 后 兼容 的 替代 品 ， 它 尽 可 能 不 改变 SQL 语法 、 客 户 端 
/服务 器 协议 和 磁盘 上 的 文件 格式 。“' 任何 运行 在 MySQL 上 的 都 可 以 运行 在 Percona 
Server 上 而 不 需要 修改 。 切 换 到 Percona Server 只 需要 关闭 MySQL 和 启动 Percona 
Server， 不 需要 导出 和 重新 导入 数据 。 切 换 回 去 也 不 麻烦 ， 而 这 一 点 实际 上 非常 重要 . 
许多 问题 是 通过 临时 切换 解决 的 ， 使 用 增强 的 方法 来 诊断 ， 然 后 切 回 到 标准 MySQL. 


我 们 只 对 标准 MySQL 中 需要 并 且 可 以 产生 显著 好 处 的 地 方 做 改进 。 我 们 相信 大 部 分 用 
户 坚持 使 用 由 Oracle 发 行 的 MySQL 官方 版 本 可 能 是 最 好 的 选择 ， 并 且 努 力 与 原版 保持 
尽 可 能 地 相同 。 


Percona Server 包括 Percona XtraDB 存储 引擎 ， 即 改进 版 本 的 InnoDB。 这 同样 是 个 向 后 
兼容 的 替代 品 。 例 如 ， 如 果 创 建 一 个 使 用 InnoDB 存储 引擎 的 表 ，Percona Server 能 自动 
识别 并 用 Percona XtraDB 替代 之 。Percona XtraDB 同样 包括 在 MariaDB 内 。 


Percona Server 的 一 些 改进 已 经 包括 在 MySQL 的 Oracle 版 本 中 ,许多 其 他 改进 也 只 是 
稍 作 修改 而 重新 实现 。 结 果 ，Percona Server 变 成 了 许多 特性 的 “ 抢 鲜 ”版 ,这些 特性 
随后 将 在 标准 MySQL 中 出 现 。Percona Server 在 5.1 和 5.5 版 本 中 的 许多 改进 可 能 要 在 
MySQL 5.6 中 重新 实现 。 


MariaDB 

在 Sun 收购 MySQL Ja, Monty Widenius， 这 位 MySQL 的 创建 者 ， 因 不 认同 MySQL F 
发 流程 而 离开 Sun。 他 成 立 了 Monty 程序 公司 ， 创 立 了 MariaDB ， 以 培养 一 个 “开放 的 
开发 环境 以 鼓励 外 部 的 参与 " .MariaDB 的 目标 是 社区 开发 ,Bug 修复 和 许多 的 新 特性 一 一 


注 1: 曾 有 一 些 对 文件 格式 的 改变 ， 但 已 经 默认 被 禁 掉 ， 如 果 想 要 ， 还 可 以 使 其 生效 。 
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特别 是 与 社区 开发 的 特性 相 集 成 。 再 引用 Monty 的 一 句 话 , 生 *“MariaDB 的 远景 是 面向 用 
户 和 客户 驱动 ， 以 及 更 多 社区 的 补丁 和 插件 。” 


MariaDB 有 什么 不 同 呢 ? 与 Percona Server 相 比 , 它 包括 了 更 多 对 服务 器 的 扩展 (Percona 
Server 的 大 部 分 改变 是 在 于 Percona XtraDB 存储 引擎 ， 而 不 是 服务 器 层 。) 例如 ， 有 许 
多 是 对 查询 优化 和 复制 的 改变 。 它 使 用 Aria 存储 引擎 取代 了 MyISAM 来 存储 内 部 临时 
R (被 用 于 复杂 的 查询 ， 例 如 DISTINCT 或 子 查询 )。Aria 最 初 叫 Maria， 在 不 确定 的 
Sun 时 代 是 打算 替代 InnoDB 的 。 它 是 MyISAM 的 崩溃 安全 的 版 本 。 


除 Percona XtraDB 和 Aria 外 ，MariaDB 还 包括 许多 社区 的 存储 引擎 ， 例 如 SphinxSE 和 
PBXT, 


MariaDB 是 原版 MySQL 的 超 集 ， 因 此 已 有 的 系统 不 需要 任何 修改 就 可 以 运行 ， 就 像 
Percona Server 一 样 。 然 而 ，MariaDB 对 有 些 场景 可 以 更 好 地 胜任 ， 例 如 复杂 的 子 查询 
或 多 表 关 联 。 它 同样 有 MyISAM 分 段 的 键 缓存 ， 这 样 特性 使 得 MyISAM 在 现代 的 硬件 
上 可 以 更 好 地 扩展 。 


也 许 MariaDB 的 最 佳 版 本 是 5.3， 在 写作 此 书 时 它 还 是 候选 发 布 状态 。 这 个 版 本 包含 许 

可 能 是 最 近 十 年 对 MySQL 最 大 的 优化 。 它 增加 了 查询 执行 
计划 ， 例 如 哈 希 联合 ， 并 且 修 复 了 我 们 之 前 在 本 书 中 指出 的 MySQL 的 一 些 缺 陷 ， 例 如 
动态 列 、 基 于 角色 的 访问 控制 和 微 秒 级 时 间 惟 的 支持 。 





关于 MariaDB 更 多 的 改进 可 参 孝 http://www.askmonty.org 上 的 文档 或 http://askmonty. 


org/blog/the-2-year-old-mariadb/ 和 http://kb.askmonty.org/en/what-is-mariadb-53 中 的 变 
更 总 结 


Drizzle 


Drizzle 是 真正 的 MySQL 分 支 ， 而 非 只 是 个 变种 或 增强 版 本 。 它 并 不 与 MySQL # 
容 ， 尽 管区 分 上 还 并 不 是 大 相 径 庭 。 在 许多 场合 并 不 能 简单 地 将 MySQL 后 端 替 换 为 
Drizzle， 因 为 它 对 SQL 语法 修改 太 大 了 。 


Drizzle 创建 于 2008 年 ， 致 力 于 更 好 地 服务 MySQL 用 户 。 其 创建 目标 是 更 好 地 满足 网 
页 应 用 的 核心 功能 。 它 是 个 很 了 不 起 的 改进 ， 与 MySQL 相 比 更 简单 ， 选 择 更 少 ; 例如 ， 
它 只 使 用 utf8 作为 存储 字符 集 , 并 且 只 有 一 种 类 型 的 BL0OB。 它 主要 针对 64 位 硬件 编译 ， 
且 支 持 IPv6 网 络 。 


注 2: 这 和 铝 话 见于 http-Vaskmontyorg/blog/the-2-year-old-mariadb 和 http://kb.askmonty.org/en/what-is-mariadb-53 , 
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Drizzle 数据 库 服务 器 的 一 个 关键 目标 是 消除 MySQL 上 蜡 常 和 遗留 的 行为 ， 例 如 声明 了 
NOT NULL 列 但 发 现 数据 库 中 莫名 其 妙 地 存储 了 NULL。 你 可 以 在 MySQL 上 找到 的 差劲 的 
实现 或 难 使 用 的 特性 已 经 被 删除 ， 例 如 触发 器 、 查 询 缓存 和 INSERT ON DUPLICATE KEY 
UPDATE。 


ERBE, Drizzle 构建 于 一 个 精简 内 核 和 插件 的 微 核心 架构 之 上 。 服 务 器 的 核心 比 起 
MySQL 已 经 精简 许多 。 几 平 任何 东西 都 是 插件 一 一 甚至 类 似 SLEEP ( ) 的 函数 。 这 使 得 
Drizzle 在 源码 级 非常 简单 并 非常 高 效 。 


Drizzle 使 用 了 诸如 Boost 的 标准 开源 库 ， 并 遵从 代码 、 构 建 架构 和 API 方面 的 标准 。 它 
对 类 似 复制 等 特意 使 用 了 Google 协议 缓冲 公开 消息 格式 ， 并 且 使 用 修改 版 的 InnoDB fF 
为 标准 存储 引擎 。 


Drizzle 团队 很 早 就 开始 着 手 做 服务 器 的 基准 测试 ， 用 基于 业界 标准 的 1024 个 线程 基准 
来 评估 高 并 发 的 性 能 。 并 发 越 大 性 能 增加 越 高 ， 对 性 能 改进 非常 大 。 


Drizzle 是 一 个 社区 开发 的 项 目 ， 在 开源 社区 比 MySQL 更 吸引 人 。 该 服务 器 的 许可 证 是 
纯 GPL 的 ， 没 有 双重 的 许可 证 。 然 而 ，MySQL 客户 端 一 服务 器 协议 依靠 一 个 基于 BSD 
许可 证 的 新 客户 端 库 完 成 ， 而 这 对 于 开发 商业 系统 是 最 重要 的 一 个 方面 。 这 意味 着 你 可 
以 通过 用 Drizzle 的 客户 端 库 来 连 到 MySQL 的 方式 构建 一 个 专属 应 用 ， 并 且 不 需要 为 
MySQL 客户 端 库 购买 商业 许可 证 或 将 软件 基于 GPL 发 布 。MySQL 的 libmysql 客户 端 库 
是 众多 公司 为 MySQL 购买 商业 许可 证 的 最 主要 的 原因 之 一 ， 没 有 这 个 链接 到 libmysgl 
的 商业 许可 证 ， 这 些 公司 就 要 被 迫 在 GPL 下 发 行 软件 。 而 这 不 再 必要 ， 因 为 现在 公司 可 
以 使 用 Drizzle 的 库 来 替代 。 


的 


但 据 我 们 了 解 ，Drizzle 虽 已 在 某 些 产品 环境 下 部 署 但 还 没有 广泛 应 用 。Drizzle MA 
适合 新 


理念 是 抛弃 向 后 兼容 的 束缚 ， 而 这 意味 着 相对 于 迁移 一 个 已 有 的 应 用 而 言 ， 它 更 
的 应 用 。 


其 他 MySQL 变种 


现在 ， 或 曾经 ， 有 许多 MySQL 服务 器 的 变种 。 许 多 大 型 公司 ， 例 如 Google, Facebook 
和 eBay， 都 维护 着 这 一 服务 器 的 修改 版 ， 以 完全 匹配 其 需求 和 部 署 场景 。 许 多 源码 已 可 
公开 获取 ; 也 许 最 著名 的 例子 就 是 Facebook 和 Google 做 的 MySQL 补丁 。 


另外 还 有 几 个 分 支 或 再 发 行 ， 例 如 OurDelta、DorsalSource， 还 有 只 存在 了 很 短 一 段 时 
间 的 Henrik Ingo 的 一 个 发 行 。 


最 后 ， 许 多 人 没有 意识 到 当 他 们 从 GNU/Linux 发 行 包 软件 库 中 安装 MySQL 时 ， 其 实 获 


652 | 附录 A MySQL 分 支 与 变种 





取 的 是 一 个 修改 后 的 服务 器 版 本 一 一 在 某 些 场合 下 ， 有 大 量 的 修改 。Red Hati Debian 
(相应 的 Fedora 和 Ubuntu) 都 发 行 了 非 标准 版 本 的 MySQL, Gentoo 以 及 实际 上 任何 其 
他 GNU/Linux 发 行 也 都 如 此 。 与 其 他 我 们 提 及 的 变种 相 比 ， 这 些 发 行 并 没有 指出 对 服务 
器 源码 做 了 哪些 修改 ， 因 为 它们 保留 了 MySQL 的 名 字 。 


过 去 我 们 遇 到 过 许多 关于 MySQL 修改 版 的 问题 。 这 是 我 们 倾向 于 倡导 使 用 Oracle 版 本 
的 MySQL 的 一 个 原因 ， 除 非 有 很 强 有 力 的 理由 来 使 用 其 他 版 本 。 


i ze 


ICA =F] 


MySQL 分 支 和 变种 很 少 有 大 量 的 代码 被 采用 到 MySQL 代码 的 主干 树 上 ， 但 却 很 大 程度 
上 影响 了 MySQL 开发 的 方向 和 节奏 。 在 某 些 情况 下 ， 它 们 提供 了 一 个 出 众 的 替代 选择 。 


应 该 使 用 分 支 代替 Oracle 官方 的 MySQL ? 我 们 并 不 认为 这 通常 有 必要 。 如 何 选择 一 般 
基于 理解 (从 来 没有 完全 的 精确 ) 或 商业 原因 ， 例 如 与 Oracle 有 一 个 企业 范围 的 关系 。 
通常 有 两 类 人 倾向 不 使 用 官方 版 本 的 服务 器 。 


。 人 巡 到 只 有 改 源码 才能 解决 的 特别 问题 的 人 。 
。 不 信任 Oracle 对 MySQL 的 管理 并 且 视 分 支 为 真正 的 开源 进而 快乐 的 人 。 


为 什么 选择 某 个 分 支 ? 我 们 总 结 如 下 。 如 果 你 想 与 官方 MySQL 版 本 尽量 保持 紧密 ， 
并 且 想 获取 更 好 的 性 能 、 指 导 和 有 用 的 特性 ， 那 就 选择 Percona Server。 如 果 你 觉得 
MariaDB 对 服务 器 的 大 量 修改 更 优 ， 或 想 要 一 个 在 社区 内 更 广泛 发 行 的 存储 引擎 ， 就 选 
择 MariaDB。 如 果 你 想 要 一 个 轻 量 精简 版 的 数据 库 服 务 器 并 且 并 不 介意 是 否 与 MySQL 
兼容 ， 或 想 让 自己 对 数据 库 的 改进 更 容易 ， 那 就 追随 Drizzle, 


讲 到 Percona, 一 般 认 为 所 有 的 提供 商都 有 许多 关于 官方 版 本 MySQL 的 经 验 ， 然 而 很 
自然 地 Percona 对 于 Percona Server 最 有 经 验 ， 而 Monty 公司 最 熟悉 MariaDB, 47 
求 官方 发 行 的 MySQL 的 Bug 修复 时 这 会 有 影响 。 只 有 Oracle 能 保证 一 个 Bug 在 官方 
的 MySQL 发 行 中 被 修复 ;其 他 供应 商 可 以 提供 修复 但 没有 把 它们 加 入 到 官方 发 行 中 的 
权力 。 这 回答 了 为 什么 选择 某 个 分 支 : 有 些 人 选择 分 支 就 是 因为 其 服务 供应 商 提供 的 
MySQL 版 本 完全 可 控 ， 并 且 可 以 方便 地 修复 和 改进 。 
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附录 B 


MySQ L 服 务 器 状态 


你 可 以 通过 查看 MySQL 的 状态 来 回答 许多 关于 MySQL 的 问题 。MySQL 以 多 种 方式 
来 暴露 服务 器 内 部 信息 。 最 新 的 是 MySQL 5.5 中 的 PERFORMANCE. SCHEMA FE, ， 而 标准 
的 INFORMATION_SCHEMA 库 从 MySQL 5.0 就 已 开始 存在 ， 此 外 实际 上 一 直 存 在 一 系列 的 
SHOW 命令 。 有 些 通过 SHOW 命令 获取 的 信息 并 不 在 INFORMATION SCHEMA 中 存在 。 


对 你 的 挑战 是 ， 问 题 到 底 是 什么 ， 如 何 获取 需要 的 信息 ， 如 何 解 释 它 。 尽 管 MySQL £ 
许 你 查看 许多 服务 器 内 部 发 生 的 信息 ， 但 使 用 这 些 信息 并 不 总 是 简单 的 。 理 解 它 需要 耐 
心 、 经 验 ， 并 要 准备 好 参阅 MySQL 用 户 手册 。 同 样 ， 好 的 工具 也 非常 有 用 。 


这 个 附录 大 部 分 是 参考 材料 ， 但 也 有 许多 关于 服务 器 内 部 功能 的 信息 ， 特 别 是 在 关于 
InnoDB 的 小 节 中 。 


MySQL 通过 SHOW VARIABLES SQL 命令 显露 了 许多 系统 变量 ， 你 可 以 在 表达 式 中 使 用 这 
些 变量 ， 或 在 命令 行 中 通过 mysqladmin variables 试验 。 自 MySQL 5.1 起 ， 可 以 通过 访 
[A] INFORMATION_SCHEMA 库 中 的 表 来 获取 这 些 信息 。 


这 些 变 量 反 映 了 一 系列 配置 信息 ， 例 如 服务 器 的 默认 存储 引擎 (storage_engine)、 可 
用 的 时 区 、 连 接 的 排序 规则 (collation) 和 启动 参数 。 我 们 在 第 8 章 中 已 经 讨论 过 如 何 
设置 和 使 用 它们 。 
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SHOW STATUS 


SHOW STATUS 命令 会 显示 每 个 服务 器 变量 的 名 字 和 值 。 和 上 面 讲 的 服务 器 参数 不 一 
样 ， 状 态 变量 是 只 读 的 。 可 以 在 MySQL 客户 端 里 运行 SHOW STATUS 或 在 命令 行 里 运 
行 mysqladmin extended-status 来 查看 这 些 变量 。 如 果 使 用 SQL 命令 ， 可 以 使 用 LIKE 
或 WHERE 来 限制 结果 。 可 以 用 LIKE 对 变量 名 做 标准 模式 匹配 。 命 令 将 返回 一 个 结果 
表 ， 但 不 能 对 它 排序 ， 与 另外 一 个 表 做 联合 操作 ， 或 像 对 MySQL 表 一 样 做 一 些 事 
情 。 在 MySQL 5.1 或 更 新 版 本 中 ， 可 以 直接 从 INFORMATION SCHEMA.GLOBAL_STATUS 和 
INFORMATION SCHEMA.SESSION STATUS 表 中 查询 值 。 





我 们 使 用 “状态 变量 ”这 个 术语 来 指 从 SHOW STATUS 中 得 到 的 值 , 术语 “系统 变量 ” 
ao 则 指 服务 器 配置 变量 。 
a, 


SHOW STATUS 的 行为 自 MySQL 5.0 后 有 了 非常 大 的 改变 ,但 是 如 果 你 没有 足够 细致 地 观 
察 ， 可 能 不 会 注意 到 。5.0 之 前 的 版 本 只 有 全 局 变量 ，5.1 及 以 后 的 版 本 中 ， 有 的 变量 
是 全 局 的 ， 有 的 变量 是 连接 级 别 的 。 因 此 ，SHOW STATUS 混杂 了 全 局 和 会 话 变量 。 其 中 
许多 变量 有 双重 域 ; 既是 全 局 变量 ， 也 是 会 话 变量 ， 它 们 拥有 相同 的 名 字 。 现 在 SHOW 
STATUS 默认 也 显示 会 话 变量 ， 因 此 ， 如 果 你 习惯 于 使 用 SHOW STATUS 来 查看 全 局 变量 ， 
则 需要 改 为 运行 SHOW GLOBAL STATUS $Æ., *' 


有 上 百 个 状态 变量 。 大 部 分 要 么 是 计数 器 ， 要 么 包含 某 些 状态 指标 的 当前 值 。 每 次 
MySQL 做 一 些 事情 都 会 导致 计数 器 的 增长 ， 比 如 开始 初始 化 一 个 全 表 扫 描 (SeLect _ 
scan)。 度 量 值 , 例如 打开 的 到 服务 器 连接 数量 (Threads_connected), 可 能 增长 和 减少 。 
有 时 候 几 个 变量 貌似 指向 相同 的 事情 ,例如 Connections (尝试 连接 到 服务 器 的 连接 数量 ) 
和 Threads_connected; 在 本 例 下 , 变量 是 关联 的 ,但 类 似 的 名 字 并 不 总 是 隐 含 某 种 关系 。 


变量 采用 无 符号 整 型 存储 。 它 们 在 32 位 编译 系统 上 用 4 个 字 市 (byte)， 而 在 64 位 环境 
上 用 8 个 字 市 ， 并 且 当 达到 最 大 值 后 会 重新 从 0 开始 。 如 果 你 增 量 地 监测 这 些 变量 ， 可 
能 需要 观察 并 修正 这 个 绕 回 处 理 ; 你 也 要 意识 到 如 果 服 务 器 已 经 运行 很 长 一 段 时 间 ， 可 
能 会 有 比 预 期 更 小 的 值 ， 这 是 因为 这 些 变量 值 已 经 被 重 置 为 零 。( 在 64 位 编译 系统 上 基 
本 不 会 出 现 。) 


如 果 想 对 服务 器 的 工作 负载 有 一 个 大 体 上 的 了 解 ， 可 以 将 相关 的 一 组 变量 放 在 一 起 查看 
和 对 比 一 一 例如 ， 一 起 查看 所 有 的 Select * 变量 ,或 所 有 的 Handler * 变量 。 如 果 使 
用 innotop, 在 Command Summary 模式 下 查看 更 简单 ， 但 也 可 以 通过 类 似 mysqladmin 


注 1: 有 个 问题 需要 说 明 : 如 果 在 一 个 新 版 服务 器 上 使 用 老 版 的 mysqladmin， 它 不 会 使 用 SHOW GLOBAL 
STATUS， 因 此 仍 将 不 能 显示 “正确 的 ”信息 。 
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extended -r -i60 | grep Handler_ 的 命令 手动 完成 。 以 下 是 在 一 个 我 们 检测 的 服务 器 上 
innotop 对 Select * 变量 的 显示 。 


Command Summary 


Name Value Pct Last Incr Pct 

Select_scan 756582 59.89% 2 100.00% 
Select_range 497675 39.40% 0 0.00% 
Select_full_join 7847 0.62% 0 0.00% 
Select full range join 1159 0.09% 0 0.00% 
Select_range_check 1 0.00% 0 0.00% 


前 两 列 是 自 服务 器 启动 后 的 值 ， 最 后 两 列 是 自 上 次 刷新 后 的 值 (在 本 例 中 是 10s ZM). 
百分比 是 与 打印 输出 中 显示 的 总 值 相 比较 ， 而 不 是 与 所 有 查询 的 总 值 相 比 。 
| 


查看 一 组 变量 的 当前 值 、 上 一 次 查询 的 值 ， 以 及 它们 之 间 的 差 值 ， 可 以 使 用 Percona 
Toolkit 中 的 pt-mext 工具 ， 或 Shlomi Noach 写 的 简洁 的 查询 。 守 ? 


SELECT STRAICHT_JOIN 
LOWER(gsO.VARIABLE_NAME) AS variable nanme, 
gsO.VARIABLE VALUE AS value_o, 
gs1.VARIABLE VALUE AS value 1, 
(gs1.VARIABLE VALUE - gsO.VARIABLE VALUE) AS diff, 
(gs1.VARIABLE VALUE - gsO.VARIABLE VALUE) / 10 AS per sec, 
(gs1.VARIABLE VALUE - gsO.VARIABLE VALUE) * 60 / 10 AS per min 
FROM ( 
SELECT VARIABLE NAME, VARIABLE VALUE 
FROM INFORMATION_SCHEMA.GLOBAL_STATUS 
UNION ALL 
SELECT '', SLEEP(10) FROM DUAL 
) AS gso 
JOIN INFORMATION | SCHEMA.GLOBAL_ STATUS gs1 USING (VARIABLE NAME) 
WHERE gsi. VARIABLE _VALUE <> gs0. ue VALUE; 


+----------------------- +---------+--------- +------ +--------- +--------- + 
| variable name | value 0 i value_1 | diff | per_sec | per_min | 
+----------------------- +--------- +--------- +------ +--------- +--------- 十 
| handler read rnd next | 2366 | 2953 | 587 | 58.7 | 3522 | 
| handler write | 2340 | 3218 | 878 | 87.8 | 5268 | 
| open files | 22 | 20 | -2 | -0.2 | -12 | 
| select full join | 2 | 3 | .1| 0.1 | 6 | 
| select_scan | 7 | 9 | 2 | 0.2 | 12 | 
+----------------------- +--------- +--------- +------ +--------- +--------- + 


最 有 帮助 的 是 查看 整个 过 程 最 后 几 分 钟 所 有 这 些 变 量 值 和 度量 值 ， 查 看 目 服务 器 启动 后 < 688 
的 总 值 也 同样 有 用 。 


接 下 来 是 对 SHOW STATUS 中 所 看 到 的 各 种 变量 的 概述 ， 但 不 是 一 个 详尽 的 列表 。 对 于 给 
定 变 量 的 详情 ， 最 好 查询 MySQL 用 户 手 册 ， 详 见 http://dev.mysql.com/doc/en/mysqld- 
option-tables.html。 当 我 们 讨论 一 组 以 相同 前 缀 开头 的 相关 变量 时 ， 我 们 指 的 是 “< 前 缓 
> *” 这 样 的 变量 。 


注 2 : FÈ http://code.openark.org/blog/mysql/mysql-global-status-difference-using-single-query LÈ. 
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线程 和 连接 统计 


这 些 变量 用 来 跟踪 尝试 的 连接 、 退 出 的 连接 、 网 络 疲 量 和 线程 统计 。 


e Connections, Max_used connections, Threads_connected 

e Aborted clients, Aborted_connects 

e Bytes received, Bytes sent 

e Slow launch threads, Threads cached, Threads created, Threads_running 


如 果 Aborted connects 不 为 0， 可 能 意味 着 网 络 有 问题 或 某 人 党 试 连接 但 失败 〈 可 能 用 
户 指定 了 错误 的 密码 或 无 效 的 数据 库 ， 或 某 个 监控 系统 正在 打开 TCP 的 3306 端口 来 检 
测 服务 器 是 否 活 着 ) 。 如 果 这 个 值 太 高 ,可 能 有 严重 的 副作用 :导致 MySQL 阻塞 一 个 主机 。 


Aborted clients 有 类 似 的 名 字 但 意思 完全 不 同 。 如 果 这 个 值 增 长 ， 一 般 意味 着 曾经 有 
一 个 应 用 错误 ， 例 如 程序 在 结束 之 前 忘记 正确 地 关闭 MySQL 连接 。 这 一 般 并 不 表明 有 
大 问题 。 


二 进 制 日 志 状 态 

Binlog cache use $} Binlog cache disk use 状态 变量 显示 了 在 二 进 制 日 志 缓存 中 有 多 
少 事务 被 存储 过 ， 以 及 多 少 事务 因 超过 二 进 制 日 志 缓存 而 必须 存储 到 一 个 临时 文件 中 。 
MySQL 5.5 还 包含 Binlog_stmt_cache_use 和 Binlog stmt_cache _ disk_use， 显 示 了 非 
事务 语句 相应 的 度量 值 。 所 谓 的 “二 进 制 日 志 缓存 命中 率 ” 往 往 对 配置 二 进 制 日 志 缓 存 
的 大 小 并 没有 参考 意义 。 详 细 参 考 第 8 章 中 相关 的 话题 。 


命令 计数 器 


Com * 变量 统计 了 每 种 类 型 的 SQL 或 C API 命令 发 起 过 的 次 数 。 例 如 ，Com_select 统计 
了 SELECT 语句 的 数量 ，Com_change _db 统计 一 个 连接 的 默认 数据 库 被 通过 USE 语句 或 C 
API 调用 更 改 的 次 数 。Questions 主 ?变量 统计 总 查询 量 和 服务 器 收 到 的 命令 数 。 然 而 , 它 
并 不 完全 等 于 所 有 Com * 变量 的 总 和 ， 这 与 查询 缓存 命中 、 关 闭 和 退出 的 连接 ， 以 及 其 
他 可 能 的 因素 有 关 。 


Com_admin_commands 状态 变量 可 能 非常 大 。 它 不 仅 计数 管理 命令 ， 并 且 还 包括 对 
MySQL 实例 的 Ping 请 求 。 这 些 请 求 通过 C API 发 起 ， 并 且 一 般 来 自 客户 端 代码 ， 例 如 
下 面 的 Perl 代码 。 


注 3: ”在 MySQL5.1 中 ， 这 个 变量 被 分 解 成 Questions 和 Queries， 两 者 有 轻微 区 别 。 
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my $dbh = DBI->connect(...); 
while ( $dbh && $dbh->ping ) { 
# Do something 


这 些 Ping 请 求 是 “垃圾 ”查询 。 它 们 往往 不 会 对 服务 器 产生 许多 负载 , 但 仍然 是 个 浪费 ， 
因为 网 络 回路 时 间 会 增加 应 用 的 响应 时 间 。 我 们 曾经 看 到 ORM 系统 (Ruby on Rails X 
即 跃 人 脑海 ) 在 每 次 查询 之 前 Ping 服务 器 ， 而 这 是 无 意义 的 ， Ping 服务 器 然后 再 查询 
是 一 个 “跳跃 之 前 看 一 下 ”设计 模式 的 典型 例子 ， 它 会 产生 竞争 条 件 。 我 们 同样 看 到 过 
在 每 次 查询 之 前 更 改 默 认 库 的 数据 库 抽 象 函数 库 ， 这 也 会 产生 大 量 的 Com change db 命 
令 。 最 好 消除 这 两 种 做 法 。 


临时 文件 和 表 
可 以 通过 下 列 命令 查看 MySQL 创建 临时 表 和 文件 的 计数 。 


mysql> SHOW GLOBAL STATUS LIKE 'Created_tmp%'; 


这 显示 了 关于 隐 式 临时 表 和 文件 的 统计 一 一 执行 查询 时 内 部 创建 。 在 Percona Server H, 
同样 有 展示 显 式 临时 表 ( 即 由 用 户 通 过 CREATE TEMPORARY TABLE 所 创建 ) 的 命令 。 


mysql> SHOW GLOBAL TEMPORARY TABLES; 


句柄 操作 <] 
句柄 API 是 MySQL 和 存储 引擎 之 间 的 接口 。Handler * 变量 用 于 统计 句柄 操作 ， 例 如 
MySQL 请 求 一 个 存储 引擎 来 从 一 个 索引 中 读 取 下 一 行 的 次 数 。 可 以 通过 下 列 命令 查看 

这 些 变 量 。 


mysql> SHOW GLOBAL STATUS LIKE 'Handler %'; 


MyISAM 键 缓冲 
Key * 变量 包含 度量 值 和 关于 MyISAM 键 缓冲 的 计数 。 可 以 通过 下 列 命令 查看 这 些 变量 。 


mysql> SHOW GLOBAL STATUS LIKE “Key %'; 


文件 摘 述 符 

如 果 你 主要 使 用 MyISAM 存储 引擎 ， 那 么 0pen_* 变量 揭示 了 MySQL 每 隔 多 久 会 打开 
每 个 表 的 .frm、.MYI 和 .MYD 文件 。InnoDB 保持 所 有 的 数据 在 表 空 间 文件 中 ， 因 此 如 
末 你 主要 使 用 InnoDB， 那 么 这 些 变 量 并 不 精确 。 可 以 通过 下 列 命 令 查 看 0pen_* 变量 。 
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mysql> SHOW GLOBAL STATUS LIKE ‘Open_%'; 


EHRT 
通过 查询 Qcache_* 状态 变量 可 以 检查 查询 缓存 。 


mysql> SHOW GLOBAL STATUS LIKE “Qcache % ; 


SELECT 类 型 


Select_* 变量 是 特定 类 型 的 SELECT 查询 的 计数 器 。 它 们 能 帮助 你 了 解 使 用 各 种 查询 计 
划 的 SELECT 查询 比率 。 不 幸 的 是 ， 并 没有 关于 其 他 查询 类 型 的 状态 变量 ， 例 如 UPDATE 
和 REPLACE ; 然而 ， 可 以 看 一 下 Handler_* 状态 变量 (前 面 讨论 过 ) 大 致 了 解 非 SELECT 
查询 的 相对 数量 。 要 查看 所 有 Select * 变量 ， 使 用 下 列 命令 。 


mysql> SHOW GLOBAL STATUS LIKE ‘Select %'; 


以 我 们 的 判断 ，Select * 状态 变量 可 以 按 花费 递增 的 顺序 如 下 排列 。 


Select_range 
在 第 一 个 表 上 扫描 一 个 索引 区 间 的 联接 数目 。 
Select_scan 
扫描 整个 第 一 张 表 的 联接 数目 。 如 果 第 一 个 表 中 每 行 都 参与 联接 ， 这 样 计数 并 没有 
问题 ， 如 果 你 并 不 想 要 所 有 行 但 又 没有 索引 以 查找 到 所 需要 的 行 ， 那 就 糟糕 了 。 
Select full range join 
EHER n 中 的 一 个 值 来 从 表 nt] 中 通过 参考 索引 的 区 间 内 获取 行 所 做 的 联接 数 。 
这 个 值 或 多 或 少 比 Select_scan 开销 多 些 , 具体 多 少 取决 于 查询 。 
Select range check 
ER n+] 中 重新 评估 表 n 中 的 每 一 行 的 索引 是 否 开 销 最 小 所 做 的 联接 数 。 这 一 般 意 
味 着 在 表 nt] 中 对 该 联接 而 言 并 没有 有 用 的 索引 。 这 个 查询 有 非常 高 的 额外 开销 。 
Select full join 
交叉 联接 或 并 没有 条 件 匹配 表 中 行 的 联接 的 数目 。 检 测 的 行 数 是 每 个 表 中 行 数 的 乘 
积 。 这 通常 是 个 坏事 情 。 


最 后 两 个 变量 一 般 并 不 快速 地 增长 ， 如 果 快 速 增长 ， 则 可 能 表明 一 个 “ 精 糕 ”的 查询 5| 
入 到 了 系统 中 。 具 体 可 参考 第 3 章 中 关于 如 何 找到 此 类 查询 的 讨论 。 
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排序 

在 前 面 几 章 中 我 们 已 经 讲 了 许多 MySQL 的 排序 优化 ， 因 此 你 应 该 知道 排序 是 如 何 工作 
的 。 当 MySQL 不 能 使 用 一 个 索引 来 获取 预先 排序 的 行 时 ， 必须 使 用 文件 排序 ， 这 会 增 
加 Sort * 状 态 变 量 。 除 Sort_merge_passes 外 ， 你 可 以 只 是 增加 MySQL 会 用 来 排序 
的 索引 以 改变 这 些 值 。Sort merge passes 依赖 sort buffer size 服务 器 变量 (不 要 
55 myisam sort buffer size 服务 器 变量 相 混淆 )。MySQL 使 用 排序 缓冲 来 容纳 排序 的 
行 块 。 当 完成 排序 后 ， 它 将 这 些 排序 后 的 行 合并 到 结果 集中 ， 增 加 Sort_merge_passes, 
并 且 用 下 一 个 待 排序 的 行 块 填充 缓存 。 然 而 ， 使 用 这 个 变量 来 指导 排序 缓存 的 大 小 并 不 
是 个 好 方法 ， 详 情 见 第 3 章 。 


可 以 通过 以 下 命令 查看 所 有 的 Sort_* 变量 。 
mysql> SHOW GLOBAL STATUS LIKE 'Sort_%'; 


4 MySQL 从 文件 排序 结果 中 读 取 已 经 排 好 序 的 行 并 返回 给 客户 端 时 ，Sort_scan 和 


Sort_range 变量 会 增长 。 不 同 点 仅 在 于 : 前 者 是 当 查 询 计划 导致 SeLect_scan 增加 ( 参 | 


考 前 面 的 章节 ) 时 增加 ， 而 后 者 是 当 Select_range 增加 时 增加 。 二 者 的 实现 和 开销 完全 
一 样 ; 仅仅 指示 了 导致 排序 的 查询 计划 类 型 。 


表 锁 

Table_locks_immediate #1 Table_locks_waited 变量 可 告诉 你 有 多 少 锁 被 立即 授权 ， 有 
多 少 锁 需 要 等 待 。 但 请 注意 ， 它 们 只 是 展示 了 服务 器 级 别 锁 的 统计 ， 并 不 是 存储 引擎 级 
的 锁 统计 。 | 


InnoDB 相关 


Innodb * 变 量 展 示 了 SHOW ENGINE INNODB STATUS 中 包含 的 一 些 数据 ,本 附录 稍 后 会 讨论 。 
这 些 变量 会 按 名 字 分 组 : Innodb buffer pool *，Innodb log *， 等 等 。 稍 后 我 们 在 检 
查 完 SHOW ENGINE INNODB STATUS 后 会 更 多 地 讨论 InnoDB AR. 


这 些 变 量 存 在 于 MySQL 5.0 或 更 新 版 本 中 ， 它 们 有 重要 的 副作用 : 它们 会 创建 一 个 全 局 
锁 ， 然 后 在 释放 该 锁 之 前 遍历 整个 InnoDB 缓冲 了 地。 同时 ， 另 外 一 些 线程 也 会 遇 到 该 锁 
而 阻塞 ， 直 到 它 被 释放 。 这 和 焉 曲 了 一 些 状 态 值 ， 比 如 Threads_running， 因 此 ， 它 们 看 
起 来 比 平常 更 高 (可 能 高 许多 ， 取 决 于 系统 此 时 有 多 忙 )。 当 运行 SHOW ENGINE INNODB 
STATUS 或 通过 INFORMATION SCHEMA # (在 MySQL 5.0 或 更 新 版 本 中 ，SHOW STATUS 和 
SHOW VARIABLES 与 对 INFORMATION_SCHEMA 表 的 查询 在 幕后 映射 了 起 来 ) 访 问 这 些 统计 时 ， 
有 相同 的 副作用 。 
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因此 ， 这 些 操作 在 这 些 版 本 的 MySQL 中 会 更 加 昂贵 一 一 检查 服务 器 状态 太 频 繁 ( 例 如， 
每 秒 一 次 ) 可 能 会 显著 增加 负载。 使 用 SHOW STATUS LIKE 也 无 济 于 事 ， 因 为 它 要 获取 
所 有 的 状态 然后 再 进行 过 滤 。 


MySQL 5.5 中 相 比 5.1 有 更 多 的 变量 ， 在 Percona Server PES, 


插件 相关 


MySQL 5.1 和 更 新 的 版 本 中 支持 可 插 拔 的 存储 引擎 ， 并 在 服务 器 内 对 存储 引擎 提供 了 注 
册 它 们 自己 的 状态 和 配置 变量 的 机 制 。 如 果 你 在 使 用 一 个 可 播 拔 的 存储 引擎 ， 也 许 会 看 
到 许多 插件 特有 的 变量 。 类 似 的 变量 总 是 以 插件 名 开头 。 


SHOW ENGINE INNODB STATUS 


InnoDB 存储 引擎 在 SHOW ENGINE INNODB STATUS 输出 中 ， 老 版 本 中 对 应 的 是 SHOW 
INNODB STATUS， 显 示 出 了 大 量 的 内 部 信息 。 


不 像 其 他 大 部 分 SHOW 命令， 它 的 输出 就 是 单独 的 一 个 字符 串 ， 没 有 行 和 列 。 它 分 为 很 
多 小 段 ， 每 一 段 对 应 了 InnoDB 存储 引擎 不 同 部 分 的 信息 ， 其 中 有 一 些 信息 对 于 InnoDB 
开发 者 来 说 是 非常 有 用 的 ， 但 是 ， 许 多 信息 ， 如 有 果 你 试 着 去 理解 ， 并 且 应 用 到 高 性 能 
InnoDB 调 优 的 时 候 ， 你 会 发 现 它们 非常 有 趣 一 一 其 至 是 非常 必要 的 。 


Wa, 

ee 1 老 版 本 的 InnoDB ARTE 64 位 数字 分 成 两 部 分 来 输出 : 高 32 位 和 低 32 位 。 有 一 个 

as 、 例子 是 事务 ID ， 比 如 TRANSACTION 0 3793469， 你 可 以 这 么 来 计算 64 位 数字 的 值 : 
AS 把 第 一 部 分 往 左 移动 32 位 ， 然 后 加 到 第 二 部 分 上 。 我 们 在 后 面 会 展示 几 个 例子 。 


输出 内 容 包含 了 一 些 平 均值 的 统计 信息 ， 例 如 fsync() 每 秒 调用 次 数 。 这 些 平均 值 是 自 
上 次 输出 结果 生成 以 来 的 统计 数 ， 因 此 ， 如 果 你 正在 检查 这 些 值 ， 那 就 要 确保 已 经 等 待 
了 30s 左右 的 时 间 ， 使 两 次 采样 之 间 积 累 起 足够 长 的 统计 时 间 并 多 次 采样 ， 检 查 计数 器 
变化 从 而 和 弄 清 其 行为 。 并 不 是 所 有 的 输出 都 会 在 一 个 时 间 点 上 生成 ， 因 而 也 不 是 所 有 显 
示 出 来 的 平均 值 会 在 同一 时 间 间 隔 里 重新 计算 一 遍 。 而且 ,InnoDB 有 一 个 内 部 复位 间隔 ， 
而 它 是 不 可 预知 的 ， 各 个 版 本 也 不 一 样 。 你 应 该 检查 一 下 输出 ， 看 看 有 哪些 平均 值 在 这 
个 时 间 段 里 生成 ， 因 为 每 次 采样 的 时 间 间 隔 不 总 是 相同 的 。 


这 里 面 有 足够 的 信息 可 供 手 工 计算 出 大 多 数 你 想 要 的 统计 信息 。 但 是 ， 如 果 这 时 有 一 
监控 工具 ， 例 如 innorop 一 一 它 能 为 你 计算 出 增 量 差 值 和 平均 值 ， 那 将 是 非常 有 用 的 。 
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头 部 信息 
第 一 段 是 头 部 信息 ， 它 仅仅 声明 了 输出 开始 ， 其 内 容 包 括 当前 的 日 期 和 时 间 ， 以 及 自 上 
次 输出 以 来 经 过 的 时 长 。 下 列 第 2 行 是 当前 日 期 和 时 间 。 第 4 行 显 示 的 是 计算 出 这 一 平 
均值 的 时 间 间 隔 ， 即 自 上 次 输出 以 来 的 时 间 ， 或 者 是 距离 上 次 内 部 复位 的 时 长 。 


2 070913 10:31:48 INNODB MONITOR OUTPUT 
3 SSSS=SSS2SSSSSSSS5SS2SS2SSSS22SSSS2SS5SeSSES=S2== 
4 Per second averages calculated from the last 49 seconds 


SEMAPHORES 


如 果 有 高 并 发 的 工作 负载 ， 你 就 要 关注 下 接 下 来 的 段 : SEMAPHORES (信号 量 ) 。 它 包含 
了 两 种 数据 : 事件 计数 器 ， 以 及 可 选 的 当前 等 待 线程 的 列表 。 如 果 有 性 能 上 的 瓶颈 ， 可 
以 使 用 这 些 信息 来 找 出 瓶颈 。 不 幸 的 是 ， 想 知道 怎么 使 用 这 些 信息 还 是 有 一 点 复杂 ， 不 
过 我 们 会 在 本 附录 的 后 面部 分 里 给 你 一 些 建议 。 下 面 是 一 些 输出 样 例 。 


4 OS WAIT ARRAY INFO: reservation count 13569, signal count 11421 

5 --Thread 1152170336 has waited at ./../include/bufobuf.ic line 630 for 0.00 second: 
the semaphore: 

6 Mutex at 0x2a957858b8 created file bufObuf.c line 517, lock var 0 

7 waiters flag 0 

8 wait is ending 

9 --Thread 1147709792 has waited at ./../include/bufObuf.ic line 630 for 0.00 second: 
the semaphore: 

10 Mutex at 0x2a957858b8 created file bufObuf.c line 517, lock var 0 

11 waiters flag 0 

12 wait is ending 

13 Mutex spin waits 5672442, rounds 3899888, OS waits 4719 

14 RW-shared spins 5920, OS waits 2918; RW-excl spins 3463, OS waits 3163 


第 4 行 给 出 了 关于 操作 系统 等 待 数组 的 信息 ， 它 是 一 个 “ 插 槽 ”数组 。InnoDB 在 数组 
里 为 信号 量 保 留 了 一 些 插 模 ， 操 作 系 统 用 这 些 信号 量 给 线程 发 送信 号 ， 使 线程 可 以 继续 
运行 ， 以 完成 它们 等 着 做 的 事情 。 这 一 行 还 显示 出 InnoDB 使 用 了 多 少 次 操作 系统 的 等 
待 。 保 留 计数 (reservation count) 显示 了 InnoDB 分 配 插 槽 的 频 度 ， 而 信号 计数 (signal 
count) 衡量 的 是 线程 通过 数组 得 到 信号 的 频 度 。 操 作 系 统 的 等 待 相对 于 空转 等 待 (spin 
wait) 要 更 昂贵 一 些 ， 我 们 即将 看 到 这 一 点 。 


第 5 ~ 12 行 显 示 的 是 当前 正在 等 待 互 斥 量 的 InnoDB 线程 。 在 这 个 例子 里 显示 出 有 两 个 
线程 正在 等 待 ,每 一 个 都 是 以 “-- Thread < 数字 > has waited...” 开 始 的 ,这 一 段 应 该 是 空 的 ， 
除非 服务 器 运行 着 高 并 发 的 工作 负载 ， 促 使 InnoDB 采取 让 操作 系统 等 待 的 措施 。 除 非 
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你 对 InnoDB 源 代码 很 熟悉 ， 否 则 这 里 看 到 的 最 有 用 的 信息 是 发 生 线程 等 待 的 代码 文件 
名 。 这 就 给 了 你 一 个 提示 : 在 InnoDB 内 部 哪里 才 是 热点 。 举 例 来 说 ， 如 果 看 到 许多 线 
程 都 在 一 个 名 为 puf0buf'ic 的 文件 上 等 竺 着， 那 就 意味 着 你 的 系统 里 存在 着 缓冲 池 竞 争 。 
这 个 输出 信息 还 显示 了 这 些 线程 等 待 了 多 长 的 时 间 ， 其 中 “waiters flag” 显 示 了 有 多 少 
个 等 待 者 正在 等 待 同一 个 互 斥 量 。 


文本 “wait is ending” 意 味 着 这 个 互 斥 量 实际 上 已 经 被 释放 了 ， 但 操作 系统 还 没 把 线程 
调度 过 来 运行 。 

你 可 能 想 知 道 InnoDB 真正 等 待 的 是 什么 。InnoDB 使 用 了 互 斥 量 和 信和 号 量 来 保护 代码 
的 临界 区 ， 例 如 ， 限 定 每 次 只 能 有 一 个 线程 进入 临界 区 ， 或 者 是 当 有 活动 的 读 时 ， 就 限 
制 写 和 人 等 。 在 InnoDB 代码 里 有 很 多 临界 区 ， 在 合适 的 条 件 下 ， 它 们 都 可 能 出 现在 那里 。 
常常 能 见 到 的 一 种 情形 就 是 获取 缓冲 池 分 页 的 访问 权 。 


在 等 待 线程 的 列表 之 后 ， 第 13 和 14 行 显示 了 更 多 的 事件 计数 器 。 第 13 行 显示 的 是 跟 
互 斥 量 相 关 的 几 个 计数 器 ， 第 14 行 用 于 显示 读 / 写 共 享 和 排他 锁 的 计数 器 。 在 每 一 个 情 
形 中 ， 都 能 看 到 InnoDB 依靠 操作 系统 等 待 的 频 度 。 


InnoDB 有 着 一 个 多 阶段 等 待 策略 。 首 先 ， 它 会 试 着 对 锁 进 行 空 等 待 。 如 果 经 过 了 一 个 
预 设 的 空转 等 待 周期 (设置 innodb sync spin loops 配置 变量 指令 ) 之 后 还 没有 成 功 ， 
那 就 会 退 到 更 昂贵 更 复杂 的 等 待 数组 中 。 兰 4 


空转 等 待 的 成 本 相对 比较 低 ， 但 是 它们 要 不 停 地 检查 一 个 资源 是 否 能 被 锁定 ， 这 种 方式 
会 消耗 CPU 周期 。 但 是 ， 这 没有 听 起 来 那么 糟糕 ， 因 为 当 处 理 器 在 等 待 TO 时 ， 一 般 都 
有 一 些 空闲 的 CPU 周期 可 用 ， 即 使 是 没有 空闲 的 CPU 周期 ， 空 等 也 要 比 其 他 方式 更 加 
廉价 一 些 。 然 而 ， 当 另外 一 条 线程 能 做 一 些 事 情 时 ， 空 转 等 待 也 还 会 独占 处 理 器 。 


空转 等 待 的 替换 方案 就 是 让 操作 系统 做 上 下 文 切换 ， 这 样 ， 当 这 个 线程 在 等 待 时 ， 另 外 
一 个 线程 就 可 以 被 运行 , 然后 , 通过 等 待 数 组 里 的 信号 量 发 出 信号 , 唤醒 那个 沉睡 的 线程 。 
通过 信号 量 来 发 送信 号 是 比较 有 效率 的 ， 但 是 上 下 文 切换 就 很 吊 贯 ， 这 很 快 就 会 积 少 成 
多 : 每 秒 钟 几 千 次 的 切换 会 引发 大 量 的 系统 开销 。 


你 可 以 通过 改变 系统 变量 innodb_sync spin loops 的 值 ， 试 着 在 空转 等 待 与 操作 系统 等 
待 之 间 达 成 平衡 。 不 要 担心 空转 等 待 ， 除非 你 在 每 一 秒 里 会 看 到 许多 空转 等 待 《大概 是 
几 十 万 这 个 水 平 )。 这 经 常 需要 理解 源 代 码 或 咨询 专家 才能 解决 。 同 样 也 可 以 考虑 使 用 
Performance Schema， 或 看 一 下 SHOW ENGINE INNODB MUTEX, 


注 4: 在 MySQL 5.1 中 增强 了 等 待 数组 ， 使 其 更 为 高 效 。 
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LATEST FOREIGN KEY ERROR 


下 一 段 ， 即 LATEST FOREIGN KEY ERROR， 一 般 不 会 出 现 ， 除 非 你 的 服务 器 上 有 外 键 错 误 。 
在 源 代码 里 有 许多 地 方 会 生成 这 样 的 输出 ， 具 体 取决 于 错误 的 类 型 。 有 时间 题 在 于 事务 
在 插入 、 更 新 或 删除 一 条 记录 时 要 寻找 到 父 行 或 子 行 。 还 有 些 时 候 是 当 InnoDB 尝试 增 
加 或 删除 一 个 外 键 ， 或 修改 一 个 已 经 存在 的 外 键 时 ， 发 现 表 之 间 类 型 不 匹配 。 


这 部 分 输出 对 于 调试 与 InnoDB 往往 不 明确 的 外 键 错误 相对 应 的 准确 原因 非常 有 帮助 。 
让 我 们 看 几 个 例子 。 首 先 ， 创 建 有 外 键 关 系 的 两 个 表 ， 然 后 插入 少量 数据 。 


CREATE TABLE parent ( 
parent_id int NOT NULL, 
PRIMARY KEY(parent_id) 
) ENGINE=InnoDB; 
CREATE TABLE child ( 
parent_id int NOT NULL, 
KEY parent_id (parent id), — 
CONSTRAINT child ibfk 1 FOREIGN KEY (parent_id) REFERENCES parent (parent_id) 
) ENGINE=InnoDB; 
INSERT INTO parent(parent_id) VALUES(1); 
INSERT INTO child(parent_id) VALUES(1); 


有 两 种 基本 的 外 键 错误 。 以 某 种 可 能 违反 外 键 约束 关系 的 方法 增加 、 更 新 或 删除 数据 ， 
将 导致 第 一 类 错误 。 例 如 ， 以 下 是 当 我 们 从 父 表 中 删除 行 时 发 生 的 事情 。 


DELETE FROM parent; 

ERROR 1451 (23000): Cannot delete or update a parent row: a foreign key constraint 
fails (`test/child`, CONSTRAINT “child ibfk_1° FOREIGN KEY (‘parent_id*) REFERENCES 
‘parent’ (`parent_id`)) 


错误 信息 相当 直接 明了 ， 对 所 有 由 增加 、 更 新 或 删除 不 匹配 的 行 导致 的 错误 都 会 看 到 相 
似 的 信息 。 下 面 是 SHOW ENGINE INNODB STATUS 的 输出 。 


4 070913 10:57:34 Transaction: 

5 TRANSACTION 0 3793469, ACTIVE 0 sec, process no 5488, OS thread id 1141152064 
updating or deleting, thread declared inside InnoDB 499 

6 mysql tables in use 1, locked 1 

7 4 lock struct(s), heap size 1216, undo log entries 1 

8 MySQL thread id 9, query id 305 localhost baron updating 

9 DELETE FROM parent 

10 Foreign key constraint fails for table `test/child`: 


12 CONSTRAINT ‘child ibfk 1” FOREIGN KEY (“parent id*) REFERENCES `parent` (‘parent 
id`) 

13 Trying to delete or update in parent table, in index `PRIMARY` tuple: 

14 DATA TUPLE: 3 fields; 
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15 0: len 4; hex 80000001; asc 33 1: len 6; hex 00000039e23d; asc 9 =;; 2: lel 
7; hex 000000002d0e24; asc - $3; 


17 But in child table ‘test/child’, in index `parent_id`, there is a record: 
18 PHYSICAL RECORD: n fields 2; compact format; info bits 0 
19 0: len 4; hex 80000001; asc 33 1: len 6; hex 000000000500; asc z 


第 4 行 显示 了 最 近 一 次 外 键 错误 的 日 期 和 时 间 。 第 $ ~ 9 行 显示 了 关于 破坏 外 键 约束 的 
事务 详情 。 后 面 会 再 解释 这 些 行 。 第 10 ~ 19 行 显示 了 发 现 错误 时 InnoDB 正 尝试 修改 
的 准确 数据 。 输 出 中 有 许多 是 转换 成 可 打印 格式 的 行 数据 。 关 于 这 点 我 们 同样 会 在 后 面 
再 加 以 说 明 。 


到 目前 为 止 还 没有 什么 问题 ， 但 有 另外 一 类 的 外 键 错 误 ， 可 能 会 让 调试 更 难 。 以 下 是 当 
我 们 尝试 修改 父 表 时 所 发 生 的 。 


ALTER TABLE parent MODIFY parent id INT UNSIGNED NOT NULL; 
ERROR 1025 (HY000): Error on rename of './test/#sql-1570 9' to './test/parent' 
(errno: 150) : 


这 就 没有 那么 清楚 了 ， 但 SHOW ENGINE INNODB STATUS 的 文本 给 了 些 指 引信 息 。 


070913 11:06:03 Error in foreign key constraint of table test/child: 
there is no index in referenced table which would contain 

the columns as the first columns, or the data types in the 
referenced table do not match to the ones in table. Constraint: 


oo ~ OU Ww 


9 CONSTRAINT child_ibfk_1 FOREIGN KEY (parent_id) REFERENCES parent (parent_id) 

10 The index in the foreign key in table is parent_id 

11 See http://dev.mysql.com/doc/refman/5.0/en/innodb-foreign-key-constraints .html 

12 for correct foreign key definition. 
本 例 中 的 错误 是 数据 类 型 不 同 。 外 键 列 必须 有 完全 相同 的 数据 类 型 ,包括 任何 修饰 符 〈 例 
如 本 例 中 的 UNSIGNED， 这 也 是 问题 所 在 )。 当 看 到 1025 错误 并 不 理解 为 什么 时 ， 最 好 查 
看 SHOW ENGINE INNODB STATUS。 


在 每 次 有 新 错误 时 ， 外 键 错误 信息 都 会 被 重 写 。Percona Toolkit 中 的 pt-fk-error-logger 
工具 可 以 保存 这 些 信息 以 供 后 续 分 析 。 


LATEST DETECTED DEADLOCK 


跟 上 面 的 外 键 部 分 一 样 ，LATEST DETECTED DEADLOCK 部 分 也 只 有 当 服 务 器 内 有 死 锁 
时 才 会 出 现 。 死 锁 错 误 信 息 同 样 在 每 次 有 新 错误 时 都 会 重 写 ，Percona Toolkit 中 的 pt- 
deadlock-logger 工具 可 以 保存 这 些 信 息 以 供 后 续 分 析 。 
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死 锁 在 等 待 关系 图 里 是 一 个 循环 ， 就 是 一 个 锁定 了 行 的 数据 结构 又 在 等 待 别 的 锁 。 这 个 
循环 可 以 任意 地 大 。InnoDB 会 立即 检测 到 死 锁 ， 因 为 每 当 有 事务 等 待 行 锁 的 时 候 ， 它 
都 会 去 检查 等 待 关系 图 里 是 否 有 循环 。 死 锁 的 情况 可 能 会 比较 复杂 ， 但 是 ， 这 一 部 分 只 
显示 了 节 近 两 个 死 锁 的 情况 ， 它 们 在 各 自 的 事务 里 执行 的 最 后 一 条 语句 ， 以 及 它们 在 图 
里 形成 循环 锁 的 信息 。 在 这 个 循环 里 你 看 不 到 其 他 事务 ， 也 看 不 到 在 事务 里 早先 可 能 
正 获 得 了 锁 的 语句 。 尽 管 如 此 ， 通 常 还 是 可 以 通过 查看 这 些 输 出 结果 来 确定 到 底 是 什么 
5 引起 了 死 锁 。 


在 InnoDB 里 实际 上 有 两 种 死 锁 。 第 一 种 就 是 人 们 常常 磁 到 的 那 种 ， 它 在 等 待 关系 图 里 
是 一 个 真正 的 循环 。 另 外 一 种 就 是 在 一 个 等 待 关 系 图 里 ， 因 代价 昂贵 而 无 法 检查 它 是 不 
是 包含 了 循环 。 如 果 InnoDB 要 在 关系 图 里 检查 超过 100 万 个 锁 ， 或 者 在 检查 过 程 中 ， 
InnoDB 要 重 做 200 个 以 上 的 事务 ， 那 它 就 会 放弃 ， 并 宣布 这 里 有 一 个 死 锁 。 这 些 数 值 
都 是 硬 编码 在 InnoDB 代码 里 的 常量 ， 无 法 配置 (如果 你 愿意 ， 可 以 在 代码 里 更 改 这 些 
数值 ， 然 后 重新 编译 )。 当 InnoDB 的 检查 工作 超过 这 个 极限 后 ， 它 就 会 引发 一 个 死 锁 ， 
这 时 你 就 可 以 在 输出 里 看 到 一 条 信息 “TOO DEEP OR LONG SEARCH IN THE LOCK 
TABLE WAITS-FOR GRAPH”, 


InnoDB 不 仅 会 打印 出 事务 和 事务 持 有 及 等 待 的 锁 ， 而 且 还 有 记录 本 身 。 这 些 信息 主要 
对 于 InnoDB 开发 者 有 用 ， 但 目前 也 没有 办 法 禁止 显示 。 不 幸 的 是 ， 它 会 变 得 很 大 ， 以 
致 超过 为 输出 结果 预 留 的 长 度 ， 使 你 无 法 看 到 下 面 几 段 输出 信息 。 对 此 唯一 的 补救 办 法 
是 ， 制 造 一 个 小 的 死 锁 来 替换 那个 大 的 死 锁 ， 或 者 使 用 Percona Server， 该 服务 器 软件 
增加 了 配置 变量 来 抑制 过 于 详尽 的 文本 。 


下 面 是 一 个 死 锁 信 息 的 样 例 。 


4 070913 11:14:21 

5 *** (1) TRANSACTION: 

6 TRANSACTION 0 3793488, ACTIVE 2 sec, process no 5488, OS thread id 1141287232 
starting index read 

7 mysql tables in use 1, locked 1 

8 LOCK WAIT 4 lock struct(s), heap size 1216 

9 MySQL thread id 11, query id 350 localhost baron Updating 

10 UPDATE test.tiny_ dl SET a = 0 WHERE a <> 0 

114 *** (1) WAITING FOR THIS LOCK TO BE GRANTED: 

12 RECORD LOCKS space id O page no 3662 n bits 72 index ~GEN_CLUST_INDEX® of table 
“test/tiny dl trx id 0 3793488 lock_mode X waiting 

13 Record lock, heap no 2 PHYSICAL RECORD: n_fields 4; compact format; info bits 0 

14 0: len 6; hex 000000000501 ...[ omitted ] ... 
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698 


16 *** (2) TRANSACTION: 

17 TRANSACTION 0 3793489, ACTIVE 2 sec, process no 5488, OS thread id 1141422400 
starting index read, thread declared inside InnoDB 500 

18 mysql tables in use 1, locked 1 

19 4 lock struct(s), heap size 1216 

20 MySQL thread id 12, query id 351 localhost baron Updating 

. 21 UPDATE test.tiny dl SET a = 1 WHERE a <> 1 

22 *** (2) HOLDS THE LOCK(S): 

23 RECORD LOCKS space id 0 page no 3662 n bits 72 index ‘GEN CLUST INDEX of table 
‘test/tiny dl trx id 0 3793489 lock mode S 

24 Record lock, heap no 1 PHYSICAL RECORD: n fields 1; compact format; info bits 0 

25 0: ... [ omitted ] ... 


27 *** (2) WAITING FOR THIS LOCK TO BE GRANTED: 

28 RECORD LOCKS space id 0 page no 3662 n bits 72 index ‘GEN CLUST INDEX’ of table 
“test/tiny_dl* trx id 0 3793489 lock_mode X waiting 

29 Record lock, heap no 2 PHYSICAL RECORD: n fields 4; compact format; info bits 0 

30. 0: len 6; hex 000000000501 ...[ omitted ] ... 


32 *** WE ROLL BACK TRANSACTION (2) 


第 4 行 显示 的 是 死 锁 发 生 的 时 间 , 第 5 ~ 10 行 显示 的 是 死 锁 里 的 第 一 个 事务 的 信息 。 在 
下 一 市 里 ,我们 会 详尽 地 解释 这 些 输 出 的 含义 。 


第 11 ~ 15 行 显示 的 是 当 死 锁 发 生 时 ， 事 务 1 正在 等 待 的 锁 。 我 们 忽略 了 其 中 第 14 行 
的 信息 ， 那 是 因为 这 只 对 调试 才 有 用 。 这 里 要 特别 注意 的 内 容 是 第 12 行 ， 它 告诉 你 这 
个 事务 正在 等 待 对 test. tiny dL 表 中 的 GEN CLUST INDEX™° 索引 上 排他 锁 (X 锁 )。 


第 16 ~ 21 行 显示 的 是 第 二 个 事务 的 状态 ,第 22 ~ 26 行 显示 的 是 该 事务 持 有 的 锁 。 为 
了 简洁 起 见 ， 在 第 25 行 有 几 条 记录 已 经 被 我 们 删 去 了 。 这 些 记录 里 有 一 条 就 是 第 一 个 
事务 正在 等 待 的 那 一 条 。 最 后 ， 第 27 ~ 31 行 显示 了 它 正在 等 待 的 是 哪 一 个 锁 。 


当 一 个 事务 持 有 了 其 他 事务 需要 的 锁 ， 同 时 又 想 获取 其 他 事务 持 有 的 锁 时 ， 等 待 关系 图 
上 就 会 产生 循环 了 。InnoDB 不 会 显示 所 有 持 有 和 等 待 的 锁 ， 但 是 ， 它 显示 了 足够 的 信 
息 来 帮 你 确定 : 查询 操作 正在 使 用 哪些 索引 。 这 对 于 你 确定 是 否 能 避免 死 锁 有 着 极 大 的 
价值 。 


如 末 能 使 两 个 查询 对 同一 个 索引 朝 同一 个 方向 进行 扫描 ， 就 能 降低 死 锁 的 数目 ， 因 为 ， 
查询 在 同一 顺序 上 请 求 锁 的 时 候 不 会 创建 循环 。 有 了 时候 ， 这 是 很 容易 做 到 的 ， 举 例 来 说 ， 
如 采 要 在 一 个 事务 里 更 新 许多 条 记录 ， 就 可 以 在 应 用 程序 的 内 存 里 把 它们 按 主键 进行 排 
Fe, 然后 , 再 用 同样 的 顺序 更 新 到 数据 库 , 这 样 就 不 会 有 死 锁 的 发 生 。 但 是 在 另 一 些 时 候 ， 
这 个 方法 也 是 行 不 通 的 (例如 有 两 个 进程 使 用 了 不 同 的 索引 区 间 操 作 同 一 张 表 的 时 候 )。 


第 32 行 显示 的 是 哪个 事务 被 选中 成 为 死 锁 的 牺牲 品 。InnoDB 会 把 看 上 去 最 容易 回 滚 (就 


注 5: 这 是 在 不 指定 主键 时 InnoDB 内 部 创建 的 索引 。 
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是 更 新 的 记录 数 最 少 的 ) HSS VE HE 


检测 这 些 常 规 日 志 ， 从 中 找 出 线程 所 涉及 的 查询 ， 然 后 看 一 下 到 底 是 什么 导致 死 锁 ， 这 
非常 有 用 。 下 节 将 介绍 在 哪里 可 以 查找 到 死 锁 输出 中 的 线程 D. 


TRANSACTIONS 


本 节 包 含 了 一 些 关于 InnoDB 事务 的 总 结 信息 ， 紧 随 其 后 是 当前 活跃 事务 列表 。 以 下 是 
前 几 行 信息 ( 头 部 )。 


Trx id counter 0 80157601 

Purge done for trx's n:o <0 80154573 undo n:o <0 0 
History list length 6 

Total number of lock structs in row lock hash table 0 


输出 会 因 MySQL 版 本 不 同 而 变化 ， 但 至 少 包 括 如 下 几 点 。 


。 第 4 行 : 当前 事务 的 ID， 这 是 一 个 系统 变量 ， 每 创建 一 个 新 事务 都 会 增加 。 

。 $854 :这 是 InnoDB 清除 旧 MVCC 行 时 所 用 的 事务 ID。 将 这 个 值 和 当前 事务 ID 
进行 比较 ， 可 以 知道 有 多 少 老 版 本 的 数据 未 被 清除 。 这 个 数字 多 大 才 可 以 安全 的 取 
值 没 有 硬性 和 速成 的 规定 。 如 果 数 据 没 做 过 任何 更 新 ， 那 么 一 个 巨大 的 数字 也 不 
意味 着 有 未 清除 的 数据 ， 因 为 实际 上 所 有 事务 在 数据 库 里 查看 的 都 是 同一 个 版 本 的 
数据 。 从 另 一 方面 来 讲 ， 如 果 有 很 多 行 被 更 新 ， 那 每 一 行 就 会 有 一 个 或 多 个 版 本 贸 
在 内 存 里 。 减 少 此 类 开销 的 最 好 办 法 是 确保 事务 一 完成 就 立即 将 它 提交 ， 不 要 让 
它 长 时 间 地 处 于 打开 的 状态 。 因 为 一 个 打开 的 事务 即使 不 做 任何 操作 ， 也 会 影响 到 
InnoDB 清理 旧版 本 的 行 数据 。 

。 同样 是 在 第 5 行 里 ， 还 有 一 项 InnoDB 清理 进程 正在 使 用 的 撤销 日 志 编号 ， 如 果 有 
的 话 。 如 果 它 是 “0 0”， 如 在 本 例 中 一 样 ， 说 明 清 理 进程 处 于 空 闪 状态 。 

。 第 6 行 : 历史 记录 的 长 度 ， 即 位 于 InnoDB 数据 文件 的 撤销 空间 里 的 页 面 的 数目 。 
如 果 事务 执行 了 更 新 并 提交 ， 这 个 数字 就 会 增加 ; 而 当 清 理 进程 移 除 旧 版 本 数据 时 ， 
它 就 会 递减 。 清 理 进程 也 会 更 新 第 5 行 中 的 数值 。 

。 第 7 行 : 锁 结 构 的 数目 。 每 一 个 锁 结 构 经 常 持 有 许多 个 行 锁 ， 所 以 ， 它 跟 被 锁定 行 
的 数目 不 一 样 。 | 


头 部 信息 之 后 就 是 一 个 事务 列表 。 当 前 版 本 的 MySQL ORKHRERS, Alt, EH 
个 时 间 点 上 ， 每 个 客户 端 连接 能 拥有 的 事务 数目 是 有 一 个 上 限 的 ， 而 且 每 一 个 事务 只 能 
属于 单一 连接 。 在 输出 信息 里 ， 每 一 个 事务 至 少 占 有 两 行内 容 。 下 面 这 个 例子 就 是 关于 
一 个 事务 所 能 看 到 的 最 少 的 信息 。 
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1 ---TRANSACTION 0 3793494, not started, process no 5488, OS thread id 1141152064 
. 2 MySQL thread id 15, query id 479 localhost baron 
第 1 行 以 该 事务 的 ID 和 状态 开始 。 这 个 事务 是 “not started”， 意 思 是 已 经 提交 并 且 没 
有 再 发 起 影响 事务 的 语句 ， 可 能 刚好 空间 。 然 后 是 一 些 进程 和 线程 信息 。 第 2 行 显示 了 
MySQL 进程 ID ， 也 和 SHOW FULL PROCESSLIST 中 的 Id 列 相同 。 紧 随 其 后 的 是 一 个 内 部 
查询 号 和 一 些 连 接 信 息 (同样 与 SHOW FULL PROCESSLIST 中 的 相同 )。 


然而 ， 每 个 事务 会 打印 比 这 多 得 多 的 信息 。 下 面 是 一 个 稍 复杂 一 些 的 例子 。 


1 ---TRANSACTION 0 80157600, ACTIVE 4 sec, process no 3396, OS thread id 1148250464, 
thread declared inside InnoDB 442 

mysql tables in use 1, locked 0 

MySQL thread id 8079, query id 728899 localhost baron Sending data 

select sql_calc_found_rows * from b limit 5 

Trx read view will not see trx with id>= 0 80157601, sees 《0 80157597 

本 例 中 的 第 1 行 显示 此 事务 已 经 处 于 活跃 状态 4s。 可 能 的 状态 有 “not started”, “active”, 
“prepared” #1 “committed in memory” (一 且 被 提交 到 磁盘 上 ， 状 态 就 会 变 为 “not 
started )。 尽 管 在 这 个 示例 里 没有 显示 ， 但 是 在 其 他 条 件 下 ， 你 也 许 能 看 到 关于 事务 当 
前 正在 做 什么 的 信息 。 在 源 代 码 中 有 超过 30 个 字符 串 常 量 可 以 显示 在 这 里 ,例如 “fetching 


rows”, “adding foreign keys”， 等 等 。 


NW NY 


第 1 行 里 的 文本 “thread declared inside InnoDB 442” 的 意思 是 该 线程 正在 InnoDB 内 核 
里 做 一 些 操 作 ， 并且, 还 有 442 张 “ 票 ”可 以 使 用 。 换 句 话 说， 就 是 同样 的 SQL 查询 
可 以 重新 进入 InnoDB 内 核 442 次 。 这 个 “ 票 ”是 系统 用 来 限制 内 核 中 线程 并 发 操作 的 
手段 ， 以 防止 其 在 某 些 平台 上 运行 失常 。 即 使 线程 的 状态 是 “inside InnoDB”, EWA 
是 在 InnoDB 里 面 完成 所 有 的 工作 。 查 询 可 能 是 在 服务 器 一 级 做 一 些 操作 ， 而 只 是 通过 
某 个 途径 跟 InnoDB 内 核 互 动 一 下 。 你 也 可 能 看 到 事务 的 状态 是 “sleeping before joining 


InnoDB queue” 或 者 “waiting in InnoDB queue”. 


接 下 来 一 行 显示 了 当前 语句 里 有 多 少 表 被 使 用 和 锁定 。InnoDB 一 般 不 会 锁定 表 ， 但 对 
有 些 语句 会 锁定 。 如 果 MySQL 服务 器 在 高 于 InnoDB 层次 之 上 将 表 锁 定 ， 这 里 也 是 能 
够 显示 出 来 的 。 如 果 事 务 已 经 锁定 了 几 行 数据 ， 这 里 将 会 有 一 行 信息 显示 出 锁定 结构 的 
数目 (再 声明 一 次 ， 这 跟 行 锁 是 两 回 事 ) 和 堆 的 大 小 。 具 体例 子 可 以 查看 之 前 的 死 锁 输 
出 信息 。 在 MySQL 5.1 及 更 新 的 版 本 里 ， 这 一 行 还 显示 了 当前 事务 持 有 的 行 锁 的 实际 数 
H. 


堆 的 大 小 指 的 是 为 了 持 有 这 些 行 锁 而 占用 的 内 存 大 小 。InnoDB 是 用 一 种 特殊 的 位 图 表 
来 实现 行 锁 的 ， 从 理论 上 讲 ， 它 可 将 每 一 个 锁定 的 行 表示 为 一 个 比特 。 我 们 的 测试 显示 ， 
每 一 个 锁 通常 不 超过 4 比特 。 
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本 例 中 的 第 3 行 包含 的 信息 略微 多 于 上 例 中 的 第 2 行 : 在 该 行 的 末尾 是 线程 状态 “Sending 
data”, ix} SHOW FULL PROCESSLIST 中 所 看 到 的 Command 列 相同 。 


如 果 事 务 正在 运行 一 个 查询 ， 那 么 接 下 来 就 会 显示 出 查询 的 文本 〈 或 者 ， 在 某 些 版 本 的 
MySQL 里 ， 显 示 其 中 的 一 小 段 ) ， 在 本 例 中 是 第 4 行 。 


第 5 行 显示 了 事务 的 读 视 图 ， 它 表明 了 因为 版 本 关系 而 产生 的 对 于 事务 可 见 和 不 可 见 两 
种 类 型 的 事务 ID 的 范围 。 在 本 例 中 ， 在 两 个 数字 之 间 有 一 个 四 个 事务 的 间隙 ， 这 四 个 
事务 可 能 是 不 可 见 的 。InnoDB 在 执行 查询 时 ， 对 于 那些 事务 ID 正好 在 这 个 间 隐 的 行 ， 
还 会 检查 其 可 见 性 。 


如 果 事 务 正在 等 待 一 个 锁 ， 那 么 在 查询 内 容 之 后 将 可 以 看 到 这 个 锁 的 信息 。 在 上 文 的 死 
锁 例 子 里 ， 这 样 的 信息 已 经 看 到 过 多 次 了 。 不 幸 的 是 ， 输 出 信息 并 没有 说 出 这 个 锁 正 被 
其 他 哪个 事务 持 有 。 如 果 使 用 了 InnoDB 插件 ， 就 可 以 在 MySQL 5.1 及 更 高 版 本 中 的 
INFORMATION-SCHEMA 表 中 查 明 这 一 点 。 


如 果 输 出 信息 里 有 很 多 个 事务 ，InnoDB 可 能 会 限制 要 打印 出 来 的 事务 数目 ， 以 免 输出 
信息 增长 得 太 大 。 这 时 就 会 看 到 “...truncated..，。 


FILE I/O | 

FILE I/0 部 分 显示 的 是 IO 辅助 线程 的 状态 ， 还 有 性 能 计数 器 的 状态 。 
1 ik Si in“ hea ie ee 
2 FILE 1/0 
3 Ba aie 


4 I/0 thread 0 state: waiting for i/o request (insert buffer thread) 
5 I/O thread 1 state: waiting for i/o request (log thread) 
6 I/0 thread 2 state: waiting for i/o request (read thread) 
7 1/0 thread 3 state: waiting for i/o request (write thread) 
8 Pending normal aio reads: 0, aio writes: 0, 

9 ibuf aio reads: 0, log i/o's: 0, sync i/o's: 0 

10 Pending flushes (fsync) log: 0; buffer pool: 0 

11 17909940 OS file reads, 22088963 OS file writes, 1743764 OS fsyncs 
12 0.20 reads/s, 16384 avg bytes/read, 5.00 writes/s, 0.80 fsyncs/s 


第 4 ~ 7 行 显示 了 IO 辅助 线程 的 状态 。 第 8 ~ 10 行 显示 的 是 每 个 辅助 线程 的 挂 起 操作 
的 数目 ， 以 及 日 志和 缓冲 池 线 程 挂 起 的 fsync() 操作 数目 。 简 写 “aio” 的 意思 是 “异步 
IO”。 第 11 行 显示 了 读 、 写 和 fsync() 调用 执行 的 数目 。 在 你 的 负载 下 这 些 绝对 值 会 有 
所 不 同 ， 因 此 更 重要 的 是 监控 它们 过 去 一 段 时 间 内 是 如 何 改变 的 。 第 12 行 显示 了 在 头 
部 显示 的 时 间 段 内 的 每 秒 平均 值 。 


在 第 8 ~ 9 行 显示 的 挂 起 值 是 检测 IO 受 限 的 应 用 的 一 个 好 方法 。 如 果 这 些 IO 大 部 分 
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有 挂 起 的 操作 ， 那 么 负载 可 能 IO SBR. 


在 Windows 下 ,可 以 通过 innodb file io threads 配置 变量 来 调整 IO 辅助 线程 数 ， 因 
此 可 能 会 看 到 不 止 一 个 读 线程 和 写 线程 。 在 使 用 了 InnoDB 插件 的 MySQL 5.1 和 更 新 版 
本 中 ， 或 Percona Server 中 ， 可 以 使 用 innodb read io threads 和 innodb write io_ 
threads 来 为 读 / 写 配置 多 个 线程 。 然 而 ， 在 所 有 平台 下 至 少 总 会 看 到 4 个 线程 。 


Insert buffer thread 

负责 插入 缓冲 合并 〈 例 如 ， 记 录 被 从 插入 缓冲 合并 到 表 空 间 中 ) 。 
Log thread 

负责 异步 刷 日 志 。 
Read thread 


执行 预 读 操 作 以 尝试 预先 读 取 InnoDB 预感 需要 的 数据 。 
Write thread 


刷 脏 缓冲 。 


INSERT BUFFER AND ADAPTIVE HASH INDEX 
这 部 分 显示 了 InnoDB 内 这 两 个 结构 的 状态 。 | 


Ibuf for space 0: size 1, free list len 887, seg size 889, is not empty 
Ibuf for space 0: size 1, free list len 887, seg size 889, 

2431891 inserts, 2672643 merged recs, 1059730 merges 

Hash table size 8850487, used cells 2381348, node heap has 4091 buffer(s) 
2208.17 hash searches/s, 175.05 non-hash searches/s 


第 4 行 显示 了 关于 播 入 缓存 大 小 “free list” 的 长 度 和 段 大 小 的 信息 。 文 本 “for space 0” 
像 是 指明 了 多 个 插入 缓冲 的 可 能 性 一 一 每 个 表 空 间 一 个 ， 但 从 未 实现 ， 并 且 这 个 文本 在 
最 近 的 MySQL 版 本 中 被 移 除 掉 了 。 只 有 一 个 插入 缓冲 ， 因 此 第 5 行 真 的 是 多 余 的 。 第 
6 行 显示 了 有 多 少 缓冲 操作 已 经 完成 。 合 并 与 插入 的 比例 很 好 地 说 明了 缓冲 使 用 效率 如 
何 。 


第 7 行 显示 了 自 适应 哈 希 索引 的 状态 。 第 8 行 显示 了 在 头 部 提 及 的 时 间 内 InnoDB 完成 
了 多 少 哈 希 索引 操作 。 哈 希 索 引 查 找 与 非 哈 希 索引 查找 的 比例 仅 供 参考 。 目 适应 案 引 无 
法 配置 。 


oo ~ Hu SS w 
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LOG 
这 部 分 显示 了 关于 InnoDB 事务 日 志 ( 重 做 日 志 ) 子 系统 的 统计 。 


LOG 
Log sequence number 84 3000620880 

Log flushed up to 84 3000611265 

Last checkpoint at 84 2939889199 

0 pending log writes, 0 pending chkp writes 
14073669 log i/o's done, 10.90 log i/o's/second 


On DU PWN 缚 


第 4 行 显示 了 当前 日 志 序 号 ， 第 $ 行 显示 了 日 志 已 经 刷 到 哪个 位 置 。 日 志 序 号 就 是 写 到 
日 志文 件 中 的 字 市 数 ， 因 此 可 用 来 计算 日 志 缓 冲 中 还 有 多 少 没有 写 入 到 日 志文 件 中 。 在 
这 个 例子 中 ， 它 有 9615 字 节 (13 000 620 880 一 13 000 611 265)。 第 6 行 显示 了 上 一 检 
济 点 (一 个 检测 点 表示 一 个 数据 和 日 志文 件 都 处 于 已 知 状态 的 时 刻 ， 并 且 能 用 于 恢复 )。 
如 果 上 一 检查 点 落后 日 志 序 号 太 多 ， 并 且 差 异 接近 于 该 日 志文 件 的 大 小 ，InnoDB ZAA 
发 “疯狂 刷 "， 这 对 性 能 而 言 非 常 粳 糕 。 第 7 ~ 8 行 显示 了 挂 起 的 日 志 操 作 和 统计 ， 你 
可 以 将 其 与 FILE 1/0 部 分 的 值 相 比较 ， 以 了 解 你 的 IO 有 多 少 是 由 日 志 子 系统 引起 ， 有 
多 少 是 其 他 原因 。 


BUFFER POOL AND MEMORY 
a a a 


4 Total memory allocated 4648979546; in additional pool allocated 16773888 
5 Buffer pool size 262144 

6 Free buffers 0 

7 Database pages 258053 

8 Modified db pages 37491 

9 Pending reads 0 

10 Pending writes: LRU 0, flush list 0, single page 0 

11 Pages read 57973114, created 251137, written 10761167 

12 9.79 reads/s, 0.31 creates/s, 6.00 writes/s 

13 Buffer pool hit rate 999 / 1000 


第 4 行 显示 了 由 InnoDB 分 配 的 总 内 存 ， 以 及 其 中 多 少 是 额外 内 存 池 分 配 。 额 外 内 存 池 
仅 分 配 了 其 中 (一 般 很 小 ) 一 部 分 的 内 存 ， 由 内 部 内 存 分 配器 分 配 。 现 代 的 InnoDB 版 
本 一 般 使 用 操作 系统 的 内 存 分 配器 ， 但 老 版 本 使 用 自己 的 ， 这 是 由 于 在 那个 时 代 有 些 操 
作 系 统 并 未 提供 一 个 非常 好 的 实现 。 


第 5 ~ 8 行 显示 了 缓冲 池 度 量 值 ， 以 页 为 单位 。 度 量 值 有 总 的 缓冲 池 大 小 、 空 闪 页 数 、 
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分 配 用 来 存储 数据 库 页 的 页 数 ， 以 及 “ 脏 ” 数 据 库 页 数 。InnoDB 使 用 缓冲 他 中 的 部 分 
页 来 对 锁 、 自 适应 哈 希 ， 以 及 其 他 系统 结构 做 索引 ， 因 此 池 中 的 数据 库 页 数 永远 不 等 于 
总 的 池 大 小 。 


第 9 ~ 10 行 显示 了 挂 起 的 读 和 写 的 数量 (例如 InnoDB 需要 为 缓冲 池 而 做 的 总 的 逻辑 读 
和 写 )。 这 些 值 并 不 与 FILE I/0 部 分 的 值 相 匹 配 ， 因 为 InnoDB 可 能 合并 许多 的 逻辑 操 
作 到 一 个 物理 IO 操作 中 。LRU 代表 “最 近 使 用 到 的 ”; 它 是 通过 冲刷 缓冲 中 不 经 常 使 
用 的 页 来 释放 空间 以 供给 经 常 使 用 的 页 的 一 种 方法 。 冲 刷 列 表 存 放 有 检测 点 处 理 需 要 冲 
刷 的 旧 页 ， 并 且 单 页 的 写 是 独立 的 页 面 写 ， 不 会 被 合并 。 


输出 中 的 第 8 行 显示 缓冲 池 包 含 37 491 个 脏 页 ， 这 是 在 某 些 时 刻 (它们 已 经 在 内 存 中 被 
修改 但 尚未 写 到 磁盘 上 ) 需要 被 刷 到 磁盘 上 的 。 然 而 ， 第 10 行 显示 当前 没有 安排 冲刷 。 
这 不 是 一 个 问题 ; InnoDB 会 在 需要 时 刷 。 如 果 在 InnoDB 的 状态 输出 中 到 处 可 见 大 量 挂 
起 的 IO 操作 ， 这 往往 表明 服务 器 有 严重 问题 。 


第 11 行 显示 了 InnoDB 被 读 取 、 创 建 和 写 人 了 多 少 页 。 读 / 写 页 的 值 指 的 是 从 磁盘 读 到 
Ri PVA, KRU. ETA InnoDB 在 缓冲 池 中 分 配 但 没有 从 数 
据 文 件 中 读 取 内 容 的 页 ， 因 为 它 并 不 关心 内 容 是 什么 (例如 ， 它 们 可 能 属于 一 个 已 经 被 
删除 的 表 )。 | 


第 13 行 报告 了 缓冲 池 的 命中 率 ， 它 用 来 衡量 InnoDB 在 缓冲 池 中 查找 到 所 需 页 的 比例 。 
它 度量 自 上 次 InnoDB 状态 输出 后 的 命中 率 ， 因 此 ， 如 果 服 务 器 自 那 以 后 一 直 很 安静 ， 
你 将 会 看 到 “No buffer pool page gets since the last printout.”。 它 对 于 度量 缓存 池 的 大 小 
并 没有 用 处 。 


TE MySQL 5.5 中 ， 可 能 有 多 个 缓冲 池 ， 每 一 个 都 会 在 输出 中 打印 一 部 分 信息 。Percona 
XtraDB 还 会 在 输出 中 打印 更 多 详情 一 一 例如 ， 准 确 显示 内 存在 哪里 分 配 。 


ROW OPERATIONS 
这 部 分 显示 了 其 他 各 项 InnoDB 统计 。 


3 

4 0 queries inside InnoDB，0 queries in queue 

5 1 read views open inside InnoDB 

6 Main thread process no. 10099, id 88021936, state: waiting for server activity 
7 Number of rows inserted 143, updated 3000041, deleted 0, read 24865563 

8 0.00 inserts/s, 0.00 updates/s, 0.00 deletes/s, 0.00 reads/s 
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第 4 行 显示 了 InnoDB 内 核 内 有 多 少 线程 (我 们 在 讨论 TRANSACTIONS 部 分 的 小 节 中 提 及 
过 )。 队 列 中 的 查询 是 InnoDB 为 限制 并 发 执行 的 线程 量 而 不 允许 进入 内 核 的 线程 。 查 询 
同样 在 进入 队列 之 前 会 体 眼 等 待 ， 这 之 前 已 经 讨论 过 。 


第 5 行 显示 了 有 多 少 打开 的 InnoDB 读 视图 。 读 视图 是 包含 事务 开始 点 的 数据 库 内 容 的 
MVCC“ 快 照 - 。 你 可 以 看 看 某 特定 事务 是 否 在 TRANSACTIONS 部 分 有 读 视图 。 


第 6 行 显示 了 内 核 的 主线 程 状态 。 可 能 的 状态 值 如 下 。 


e doing background drop tables 
e doing insert buffer merge 

e flushing buffer pool pages 

e flushing log 

e making checkpoint 

e purging 

e reserving kernel mutex 

e sleeping 

e suspending 

e waiting for buffer pool flush to end 
e waiting for server activity 


在 大 部 分 服务 器 上 应 该 会 经 常 看 到 “sleeping”， 如 果 生 成 多 个 快照 而 一 再 查看 到 不 同 的 
状态 ,例如 “flushing buffer pool pages”, 则 应 该 怀疑 相关 的 活动 有 问题 一 一 例如 ， “TAE MI” 
问题 ， 可 能 由 某 个 冲刷 算法 差劲 的 InnoDB 版 本 引起 ， 或 由 糟糕 的 配置 导致 ， 例如 太 小 
的 事务 日 志文 件 。 


第 7 ~ 8 行 显示 了 多 少 行 被 插入 、 更 新 、 删 除 和 读 取 ， 以 及 它们 的 每 秒 均值 。 如 果 想 查 
看 InnoDB 有 多 少 工 作 在 进行 ， 那 么 它们 是 很 好 的 参考 值 。 


SHOW ENGINE INNODB STATUS 输出 在 第 9 ~ 13 行 结束 。 如 果 看 不 到 这 个 文本 ， 那 可 能 是 
有 一 个 大 的 死 锁 截断 了 输出 。 


SHOW PROCESSLIST 


进程 列表 是 当前 连接 到 MySQL 的 连接 或 线程 的 清单 。SHOW PROCESSLIST 列 出 了 这 些 线 
程 ， 以 及 每 个 线程 的 状态 信息 。 例 如 : 


SHOW PROCESSLIST | 675 


706 


mysql> SHOW FULL PROCESSLIST\G 
FEES AOA ECO AISEICK q rgy Je bea pada aE Ra AE 


Id: 
: sphinx 
: $e02:58392 
: art136 
Command: 
Time: 
State: 
Info: 


61539 


Query 
0 


Sending data 
SELECT a.id id, a.site id site id, unix_timestamp(inserted) AS 


inserted, forum id, unix _timestamp(p | 
HAKKAR ARK AK KKK ARERR 2 rgy RoR aR a a kkk kkk kk kkk kk kk kkk k 


Id: 
User: 
Host: 

db: 

Command: 
Time: 
State: 
Info: 


65094 


‘ mailboxer 


db01:59659 

link84 

Killed 

12931 

end 

update link84.link_in84 set url to = 


replace(replace(url_to,'&amp;','&'),'%20','+'), url_prefix=repl 
有 几 个 工具 〈 例 如 innotop) 可 以 以 定期 刷新 的 方式 显示 进程 列表 。 


也 可 以 从 INFORMATION SCHEMA 中 的 表 来 获取 这 个 信息 。Percona Server 和 MariaDB 同 这 
个 表 中 增加 了 更 多 有 用 的 信息 ， 如 高 精度 的 时 间 字 段 和 显示 查询 完成 百分比 的 字段 ， 这 
一 信息 可 用 作 进 度 指示 。 


Command 和 State 列 真 正 表明 了 线程 的 状态 。 上 面 的 例子 中 ， 第 一 个 进程 正在 运行 查询 
并 发 送 数据 ， 而 第 二 个 进程 已 被 杀 死 ， 这 可 能 是 由 于 这 需要 非常 长 的 一 段 时 间 来 完成 ， 
于 是 某 人 深思 熟 虐 后 通过 KILL 命令 终结 了 它 。 线 程 有 可 能 在 KILL 状态 停留 一 段 时 间 ， 
因为 KILL 命令 有 可 能 不 能 立刻 执行 完成 ， 比 如 它 可 能 需要 一 些 时 间 来 回 滚 事务 。 


SHOW FULL PROCESSLIST (增加 了 FULL 关键 字 ) 将 显示 每 个 查询 的 全 文 ， 否 则 最 多 显示 
100 个 字符 。 


SHOW ENGINE INNODB MUTEX 


SHOW ENGINE INNODB MUTEX 返回 InnoDB 互 斥 体 的 详细 信息 ， 主 要 对 洞悉 可 扩展 性 和 并 
发 性 问题 有 帮助 。 每 个 互 斥 体 都 保护 着 代码 中 一 个 临界 区 ， 这 在 之 前 已 经 讨论 过 。 


输出 会 因 MySQL 版 本 和 编译 选项 而 有 所 不 同 。 下 面 是 MySQL 5.5 服务 器 的 示例 。 
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mysql> es ENGINE INNODB MUTEX; 


+--------+--- MMMM + 

| Type | Name | Status | 

+-------- +------------------------------ +------------- + 
InnoDB | &table->autoinc mutex | os waits=1 
InnoDB | &table->autoinc_mutex os _waits= 1 
InnoDB | &table->autoinc_mutex os waits=4 
InnoDB | &table->autoinc_mutex os waits=1 
InnoDB | &table->autoinc_mutex os _waits= 12 
InnoDB | &dict_sys->mutex os _waits= 1 
InnoDB | &log sys->mutex os waits=12 
InnoDB | &fil_system->mutex OS | _waits=11 

os _waits= 1 


| 
| | 

| | | 

| | o | 

| | | 

| | | 

| | | 

B | | | 
InnoDB | &kernel_mutex | | 
| &dict_table stats latches[i] | os waits=2 | 

| | os waits=54 | 

| | | 

| | | 

| | | 

| | | 

| | | 

| | 

| 

| 

| 

| 


InnoDB 

InnoDB | &dict_table_stats_latches[i] 

InnoDB | &dict table stats latches[i] | os waits=1 
InnoDB | &dict_table stats latches[i] | os waits=31 
InnoDB | &dict table stats latches[i] | os waits=41 
InnoDB | &dict table stats latches[i] | os _waits=12 
InnoDB | &dict table stats latches[i] | os waits=1 
InnoDB | &dict table stats _latches[i] | os _waits=90 


InnoDB | &dict_ table stats latches[i] | os_waits=1 


InnoDB | &dict operation_lock | os waits=13 

InnoDB | &log sys->checkpoint_lock | os waits=66 

InnoDB | combined &block->lock | os waits=2 
+-------- +------------------------------ +------------- + 


基于 等 待 的 数量 , 可 以 使 用 这 个 输出 来 帮助 确定 InnoDB 的 哪 一 块 是 瓶颈 。 只 要 有 互 斥 体 ， 
就 会 有 潜在 的 争 用 。 该 命令 的 输出 可 能 会 非常 多 ， 需 要 写 一 些 脚 本 进行 聚合 分 析 。 


有 三 种 主要 的 策略 可 以 消除 互 尺 相关 的 瓶颈 : 尽量 避 开 InnoDB 的 弱点 ， 限 制 并 发 ， 或 
者 在 CPU 密集 型 的 空转 等 待 和 资源 密集 型 的 操作 系统 等 待 之 间 取 得 平衡 。 这 些 在 本 附录 
前 面 和 第 8 章 讨论 过 。 


复制 状态 
MySQL 有 几 个 命令 用 以 监测 复制 。 在 主 库 上 执行 SHOW MASTER STATUS 可 显示 主 库 的 复 
制 状态 和 配置 。 


mysql> SHOW MASTER STATUSNG 
FORA IR RR RK 1. Tow EK RK OK KK RK OK OK OK KK KK KE KKK 


File: mysql-bin.000079 
Position: 13847 
Binlog Do_DB: 
Binlog Ignore DB: 


输出 包含 了 主 库 当前 的 二 进 制 日 志 位 置 。 通 过 SHOW BINARY LOGS 可 以 获取 到 二 进 制 日 志 
的 列表 。 
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mysql> SHOW BINARY LOGS 


------------------ +-----------+ 
| Log name | File size | 
+------------------ +----------- 十 
| mysql-bin.000044 | 13677 | 
| mysql- -bin.000079 | 13847 | 
------------------ +-----------+ 


rows in set (0.18 sec) 


要 查看 这 些 二 进 制 日 志 中 的 事件 ， 可 以 用 SHOW BINLOG EVENTS, Æ MySQL 5.5 F, 也 
可 以 使 用 SHOW RELAYLOG EVENTS, 


在 备 库 上 执行 SHOW SLAVE STATUS 查看 复制 的 状态 和 配置 。 在 此 ， 我 们 不 予 列举 ， 因 为 
输出 有 点 元 长， 但 我 们 会 说 明 关 于 它 的 几 个 事情 。 首 先 ， 你 可 以 同时 看 到 复制 /O 和 复 
制 SQL 线程 的 状态 ， 包 括 任何 错误 。 也 可 以 看 到 复制 落后 多 远 。 输 出 中 还 有 三 大 ,二 级 制 
日 志 的 坐标 ， 这 几 个 坐标 对 于 备份 和 搭 备 库 非 常 有 用 。 


Master Log File/Read Master Log Pos 
VO 线程 读 主 库 二 进 制 日 志 的 位 置 。 

Relay Log File/Relay Log Pos 
SQL 线程 执行 中 继 日 志 的 位 置 。 

Relay Master Log File/Exec Master Log Pos 
SQL 线程 执行 的 映射 到 主 库 二 进 制 日 志 的 位 置 。 这 与 Relay_Log_File/Relay Log_ 
Pos 有 着 相同 的 逻辑 位 置 ， 但 是 主 库 的 二 进 制 日 志 而 非 复制 的 中 继 日 志 。 换 名 话说 ， 
如 有 果 你 看 一 下 日 志 中 的 这 两 个 位 置 ， 你 会 发 现 有 相同 的 日 志 事 件 。 


INFORMATION_SCHEMA 


INFORMATION. SCHEMA 库 是 一 个 SQL 标准 中 定义 的 系统 视图 的 集合 。MySQL 实现 了 许 
多 标准 中 的 视图 ， 并 且 增 加 了 一 些 其 他 的 视图 。 在 MySQL 5.1 中 ， 其 中 许多 的 视图 与 
MySQL 的 SHOW 命令 对 应 ， 例 如 SHOW FULL PROCESSLIST 和 SHOW STATUS, in, Wa 
一 些 视 图 并 没有 相对 应 的 SHOW 命令 。 


INFORMATION_SCHEMA 视图 的 美 在 于 能 够 以 标准 的 SQL 来 进行 查询 。 这 上 比 SHOW 命令 更 灵 
活 ， 因 为 SHOW 命令 产生 的 结果 不 能 察 合 、 联 接 或 进行 其 他 标准 SQL 操作 。 在 系统 视图 
层 拥 有 所 有 可 获得 的 数据 使 得 写 感 兴趣 和 有 用 的 查询 变 得 可 行 


例如 ， 在 Sakila 样本 库 中 哪 一 个 表 引 用 了 actor 表 ? 一 致 的 命名 约定 使 之 很 容易 确定 。 
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mysql> SELECT TABLE NAME FROM INFORMATION _SCHEMA.COLUMNS 
-> WHERE TABLE SCHEMA='sakila' AND COLUMN NAME='actor_id' 
-> AND TABLE_NAME <> ‘actor’; 


| actor_info | 
| film actor | 


我 们 需要 为 本 书 找 几 个 表 中 含有 多 列 索 引 的 样 例 。 下 面 是 一 个 满足 需要 的 查询 ，。 


mysql> SELECT TABLE NAME, GROUP_CONCAT(COLUMN NAME) 
-> FROM INFORMATION SCHEMA.KEY_COLUMN USAGE 
-> WHERE TABLE SCHEMA=' sakila' 
-> GROUP BY TABLE NAME, CONSTRAINT NAME 
-> HAVING cOUNT(*) > 1; 


+---------------+-------------------------------------- + 
| TABLE_NAME | GROUP_CONCAT(COLUMN NAME) | 
+---------------+-------------------------------------- + 
| film_actor | actor id,film id | 
| film category | film_id,category id | 
| rental | customer_id,rental_date,inventory id | 
+--------------- +-------------------------------------- 十 


你 也 可 以 写 更 复杂 的 查询 ,就 像 对 待 其 他 常规 表 一 样 。MySQL Forge (http://forge.mysaql. 
com) 是 一 个 寻找 和 分 享 针 对 这 些 视图 的 查询 的 好 地 方 。 有 查找 重复 和 元 余 索 引 ， 查 找 
非常 低 基 数 的 索引 ， 以 及 更 多 其 他 的 例子 。 在 Shlomi Noach 的 common_schema 项 目 中 
( http://code. openark.org/forge/common_schema) 中 同样 有 一 组 基于 INFORMATION_SCHEMA 
视图 所 写 的 有 用 视图 。 


最 大 的 缺点 是 视图 与 相应 的 SHOW 命令 相 比 ， 有 时 非常 慢 。 它 们 一 般 会 取 所 有 的 数据 ， 
存在 临时 表 中 ， 然 后 使 查询 可 以 获取 临时 表 。 当 服务 器 上 数据 量 大 或 表 非 常 多 时 ， 查 
if] INFORMATION_SCHEMA 表 会 导致 非常 高 的 负载 ， 并 且 会 导致 服务 器 对 其 他 用 户 而 言 停 
转 或 不 可 响应 ， 因 此 在 一 个 高 负载 且 数 据 量 大 的 生产 服务 器 上 使 用 时 要 小 心 。 查 询 时 
会 有 危险 的 表 主 要 是 那些 包含 下 列表 元 数据 的 表 : TABLES, COLUMNS, REFERENTIAL_ 
CONSTRAINTS，KEY_COLUMN_USAGE， 等 等 。 对 这 些 表 的 查询 会 导致 MySQL 向 存储 引擎 请 
求 获 取 类 似 服 务 器 上 表 的 索引 统计 等 数据 ， 而 这 在 InnoDB 里 是 非常 繁重 的 。 


这 些 视图 不 可 更 新 。 尽 管 你 可 以 从 中 检索 到 服务 器 设置 ， 但 不 能 更 新 以 影响 服务 器 的 配 
置 ， 因 此 ,仍然 需要 对 配置 使 用 SHOW 和 SET 命令 ， 尽 管 INFORMATION_SCHEMA 视图 对 其 
他 任务 非常 有 用 。 


INFORMATION_SCHEMA | 679 


InnoDB 表 


在 MySQL 5.1 和 更 新 版 本 中 ，InnoDB 插件 创建 了 许多 的 INFORMATION SCHEMA 表 。 这 些 
表 非 常 有 用 。 在 MySQL 5.5 中 有 更 多 这 样 的 表 ， 而 还 未 发 行 的 MySQL 5.6 中 则 还 要 多 。 


在 MySQL 5.1 中 ， 存 在 如 下 一 些 表 。 


INNODB_CMP 和 INNODB_CMP_RESET 
这 些 表 显 示 了 InnoDB 中 以 新 文件 格式 Barracuda 压缩 的 数据 的 相关 信息 。 第 二 个 表 
显示 的 信息 与 第 一 个 表 相 同 ， 但 具有 重 置 所 包含 数据 的 副作用 ， 好 像 使 用 FLUSH 命 
令 那样 。 
INNODB_CMPMEM 和 INNODB_CMPMEM RESET | 
这 些 表 显 示 了 用 于 InnoDB 压缩 数据 的 缓冲 池 中 页 的 信息 。 第 二 个 表 又 是 一 个 重 置 表 。 
INNODB TRX že- INNODB LOCKS ~ 
这 些 表 显 示 了 事务 ， 拥 有 和 等 待 锁 的 事务 。 它 们 对 于 诊断 锁 等 待 问题 和 长 时 间 运行 
的 事务 非常 重要 。MySQL 用 户 手册 上 包含 了 查询 样 例 ， 你 可 以 直接 复制 、 粘 贴 来 显 
示 哪 一 些 事务 在 阻塞 其 他 事务 ， 它 们 正在 运行 的 查询 ， 等 等 。 


除了 这 些 表 ，MySQ1 5.5 还 增加 了 INNODB LOCK WAITS， 它 可 以 帮助 更 容易 地 诊断 更 多 类 
型 的 锁 等 待 问题 。MySQL 5.6 中 将 会 增加 显示 关于 InnoDB 内 部 更 多 信息 (包括 缓冲 池 
和 数据 字典 ) R, RERA INNODB METRICS 的 新 表 ， 它 将 是 使 用 Performance Schema 
的 替代 方案 。 


Percona Server 中 的 表 


Percona Server [fh] INFORMATION_SCHEMA 库 中 增加 了 大 量 的 表 。 原 生 的 MySQL 5.5 服务 器 
有 39 个 表 ， 而 Percona Server 5.5 有 61 个 表 。 以 下 是 关于 新 增 表 的 概述 。 


“用 户 统计 信息 ” 表 
这 些 表 源 于 Google 的 MySQL 补丁 。 它 们 显示 了 客户 端 、 索 引 、 表 、 线 程 和 用 户 的 
活动 统计 。 我 们 在 本 书 中 提 到 了 它们 的 使 用 ， 例 如 确定 复制 何 时 开始 接近 追赶 上 主 
库 的 能 力 极限 。 

InnoDB 数据 字典 
一 系列 的 表 以 只 读 表 的 方式 暴露 了 InnoDB 内 部 数据 词典 : 列 、 外 键 、 索 引 、 统 计 ， 
等 等 。 它 们 对 从 InnoDB 角度 检测 和 理解 数据 库 非 常 有 帮助 , 它 可 能 与 MySQL 不 同 ， 
因为 MySQL 依赖 于 frm 文件 来 存储 数据 字典 。 类 似 的 表 在 MySQL 5.6 发 行 时 会 加 
进来 。 
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InnoDB 缓冲 池 
这 些 表 使 你 可 以 像 表 一 样 查询 缓冲 池 ， 表 中 每 个 页 是 一 行 ， 因 此 ， 你 可 以 看 到 什么 
页 驻 存 于 缓冲 池 中 ， 有 哪 种 类 型 的 页 ， 等 等 。 这 些 表 已 被 证 实 对 于 诊断 类 似 膨 胀 的 
插入 缓冲 非常 有 用 。 

临时 表 | 
这 些 表 显 示 了 与 INFORMATION SCHEMA. TABLES 表 中 可 获取 的 类 型 相同 的 信息 ， 只 是 
用 临时 表 取 代 了 。 有 一 个 用 于 你 自身 会 话 的 临时 表 ， 还 有 一 个 用 于 整个 服务 器 中 的 
所 有 临时 表 。 它 们 对 某 个 会 话 获取 可 视 性 到 存在 的 临时 表 中 ， 以 及 它们 使 用 了 多 少 
空间 。 
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有 少数 其 他 表 为 查询 执行 时 间 、 文 件 、 表 空 间 和 更 多 InnoDB 内 部 信息 增加 了 可 视 性 。 


关于 Percona Server 的 新 增 表 的 文档 可 以 在 http:/www.percona.com/doc/ 获取 。 


Performance Schema 


自 MySQL 5.5 起 ，Performance Schema (寄存 于 PERFORMANCE SCHEMA 库 中 ) 是 MySQL 
增强 仪表 的 新 的 汇总 处 。 我 们 在 第 3 章 中 已 讨论 过 一 点 。 


默认 情况 下 ，Performance Schema 是 禁 掉 的 ， 你 必须 打开 并 且 使 其 在 一 个 想 要 收集 的 特 
定 的 仪表 点 “消费 者 ”) 启用 。 我 们 对 服务 器 以 几 个 不 同 的 配置 做 了 基准 测试 ， 发 现 即 
使 Performance Schema 没有 数据 可 采集 也 会 导致 8% ~ 11% 的 开销 ， 并 且 所 有 消费 都 生 
效 的 话 会 有 19% ~ 25% 的 开销 ， 具 体 取决 于 是 一 个 只 读 还 是 读 / 写 的 负载 。 这 算 少 还 是 
多 由 你 来 决定 。 


这 在 MySQL 5.6 中 将 改善 ， 特 别 是 当 特 性 本 身 生 效 但 所 有 仪表 点 都 禁用 时 。 这 对 某 些 用 
户 而 言 更 加 实用 ， 他 们 会 让 Performance Schema 生效 ,但 直到 收集 信息 时 才 将 其 激活 。 


在 MySQL 5.5 中 ，Performance Schema 包含 了 指示 条 件 变量 、 互 斥 体 、 读 / 写 锁 和 文件 
VO 实例 的 表 。 还 有 指示 实例 上 的 等 待 信息 的 表 , 而 这 些 经 前 是 你 在 查询 时 首先 感 兴趣 的 ， 
以 及 与 其 实例 表 的 联接 。 这 些 事件 等 待 玫 有 几 种 变 体 ， 拥 有 关于 服务 器 性 能 和 行为 的 当 
前 和 历史 信息 。 最 后 ,还 有 一 组 设置 表 ,你 可 以 用 这 些 表 来 使 预想 的 消费 者 生效 或 失效 。 


在 MySQL 5.6.3 开发 里 程 碑 的 第 6 个 发 行 中 ，Performance Schema 中 的 表 数 从 17 增长 
到 了 49。 这 意味 着 MySQL 5.6 中 有 许多 的 仪表 ! 增加 的 仪表 涵盖 SQL 语句 、 语 句 过程 ( 基 
本 上 与 你 在 SHOW PROCESSLIST 中 看 到 的 线程 状态 相同 )、 表 、 索 引 、 主 机 、 线 程 、 用 户 、 
账号 ， 以 及 各 种 总 述 及 历史 表 等 。 
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你 如 何 使 用 这 些 表 ? 有 49 个 表 ， 得 让 某 些 人 为 此 写 些 工具 来 帮助 大 家 了 。 然 而 ， 对 于 
Ej Performance Schema 表 相 对 应 的 早期 流行 的 非常 不 错 的 SQL 例子 ， 可 以 阅读 Oracle 
工程 师 Mark Leith 的 博客 上 的 一 些 文章 ， 例 如 http:/www.markleith.co.uk/?p=471。 


总 结 


MySQL 暴露 服务 器 内 部 信息 的 首要 方式 是 SHOW 命令 ， 但 这 在 改变 。 在 MySQL 5.1 中 
引入 的 可 播 拔 的 INFORMATION_SCHEMA KIF InnoDB 揪 件 增加 一 些 非常 有 意义 的 仪表 ， 
而 Percona Server 增加 的 要 多 得 多 。 然 而 ， 读 取 SHOW ENGINE INNODB STATUS 输出 并 解 
释 的 能 力 对 管理 InnoDB 仍然 是 至 关 重 要 的 。 在 MySQL 5.5 和 更 新 的 服务 器 版 本 中 ， 可 
以 使 用 Performance Schema， 它 将 来 可 能 变 成 深入 服务 器 内 部 最 强大 和 完备 的 方式 。 
Performance Schema 最 棒 的 一 点 在 于 它 是 基于 时 间 的 ， 这 意味 着 MySQL 最 终 可 以 获取 
已 经 逝去 时 间 里 的 仪表 盘 ， 而 不 仅仅 是 已 操作 的 次 数 。 
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附录 CC < 下 
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在 管理 MySQL、 初 始 化 服务 器 、 殉 隆 复 制 和 进行 备份 /还 原 操作 时 ， 复 制 、 压 缩 和 解压 
缩 大 文件 (常常 是 跨 网 络 的 ) 是 很 常见 的 任务 。 能 够 最 快 最 好 完成 这 些 任 务 的 方法 并 不 
总 是 显而易见 的 ， 并 且 方 法 好 坏 的 差异 可 能 非常 显著 。 这 个 附录 将 通过 几 个 例子 演示 使 
用 常见 的 UNIX 实用 工具 ， 将 一 个 大 尺寸 的 备份 镜像 从 一 台 服 务 器 复制 到 其 他 服务 器 。 


通常 从 未 压缩 的 文件 开始 ， 例 如 一 台 服 务 器 上 的 InnoDB 表 空 间 和 日 志文 件 。 当 然 ， 在 
把 文件 复制 到 目的 地 之 后 要 再 将 它 解 压缩 。 另 外 一 个 常见 的 场景 是 以 压缩 文件 开始 ， 例 
如 备份 镜像 文件 ， 以 解压 文件 结束 。 


如 果 网 络 传输 能 力 有 限 ， 那 么 用 压缩 格式 在 网 络 间 发 送 文件 是 个 好 方法 。 你 可 能 还 需要 
一 个 安全 的 传输 途径 ， 使 数据 不 会 被 损坏 ; 这 对 于 备份 镜像 文件 来 说 ， 是 一 个 很 常见 的 
需求 。 


复制 文件 
这 个 任务 实际 上 就 是 完成 以 下 事情 。 


1. (可 选 ) 压缩 数据 。 

2. 发 送 到 另外 一 台 机 器 上 。 

3. 把 数据 解压 缩 到 最 终 目 的 地 。. 

4. 在 复制 完成 后 ， 校 验 文件 以 确认 其 没有 被 损坏 。 

我 们 对 能 达成 这 些 目标 的 一 系列 方法 进行 了 基准 测试 。 本 附录 的 余下 部 分 将 展示 我 们 是 
怎么 做 的 ， 以 及 我 们 找到 的 最 快速 的 方法 是 什么 。 


对 于 在 本 书 里 讨论 过 的 很 多 目的 ， 例 如 备份 ， 你 可 能 要 考虑 在 哪 一 台 机 器 上 做 压缩 会 更 
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好 一 点 。 如 果 有 足够 的 网 络 带宽 ， 还 是 复制 未 压缩 形式 的 备份 镜像 文件 为 好 ， 这 样 可 以 
在 MySQL 服务 嚣 上 市 省 出 CPU 资源 供 查 询 使 用 。 


一 个 简单 的 示例 
我 们 以 一 个 简单 的 示例 开始 ， 安 全 地 将 一 个 未 压缩 的 文件 从 一 台 机 器 发 送 到 另外 一 台 上 ， 
途中 将 它 进行 压缩 ， 然 后 再 解压 。 在 称 为 server] 的 源 服务 器 上 ， 执 行 如 下 命令 。 


server1$ gzip -c /backup/mydb/mytable.MYD > mytable.MYD.gz 
server1$ scp mytable.MYD.gz root@server2:/var/lib/myql/mydb/ 


然后 ， 在 server2 上 执行 如 下 命令 。 
server2$ gunzip /var/lib/mysql/mydb/mytable.MYD.gz 


这 大 概 是 最 简单 的 实现 方法 了 ， 但 效率 并 不 高 ， 因 为 涉及 压缩 、 复 制 和 解压 缩 等 串 行 化 
的 步骤 。 每 一 个 步 又 都 需要 读 / 写 磁盘 ， 速 度 比较 慢 。 上 述 命令 的 真正 操作 依次 是 这 样 


”的 ;在 serverl 上 gzip 既 要 读 又 要 写 ，scp 在 serverl 上 读 而 在 server2 上 写 ; gunzip 


在 server2 上 既 要 读 又 要 写 。 


一 步 到 位 的 方法 
下 面 这 个 方法 更 有 效率 一 些 ， 它 将 压缩 、 复 制 文件 和 在 传输 的 另 一 端 解压 缩 文件 全 部 放 
在 一 个 步骤 里 完成 。 这 一 次 我 们 使 用 SSH，SCP 就 是 基于 这 个 安全 协议 的 。 下 面 是 在 
serverl 上 执行 的 命令 。 
server1$ gzip -c /backup/mydb/mytable.MYD | ssh root@server2 "gunzip -c - > /var/lib 
>/mysql/mydb/mytable.MYD" 
这 个 方法 通常 比 第 一 个 方法 好 ， 因 为 它 极 大 地 降低 了 磁盘 1/0 : 磁盘 活动 被 减少 到 只 
在 serverl 上 读 ， 在 server2 上 写 。 这 也 使 得 磁盘 操作 更 加 有 序 。 


也 可 以 使 用 SSH 内 建 的 压缩 来 完成 ， 但 是 我 们 展示 的 是 用 管道 来 做 压缩 和 解压 缩 ， 这 是 
因为 这 样 能 给 予 你 更 大 的 灵活 性 。 例 如 ， 假 如 你 不 想 在 另 一 端 解压 缩 文件 ， 就 无 法 使 用 
SSH 的 压缩 。 


可 以 通过 调整 一 些 选 项 来 提高 这 个 方法 的 效率 ， 例 如 给 gzip 增加 选项 -1， 使 其 压缩 得 更 
快 。 这 个 选项 通常 不 会 降低 太 多 压缩 率 ， 但 是 能 明显 提高 压缩 速度 ， 这 才 是 重点 。 你 也 
可 以 使 用 不 同 的 压缩 算法 。 例 如 ， 如 果 想 获得 很 高 的 压缩 率 ， 又 不 在 平 会 花费 多 少时 间 ， 
那么 ， 就 可 以 使 用 bzip2 来 代替 gzzp。 如 果 想 要 非常 快 的 压缩 速度 ， 可 以 使 用 基于 LZO 
的 压缩 程序 。 这 样 压缩 后 的 数据 会 比 其 他 方法 的 结果 大 20% 左右 ， 但 是 压缩 的 速度 约 快 
5 倍 。 
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避免 加 密 的 系统 开销 

SSH 不 是 跨 网 传输 数据 的 最 快 方法 ， 因 为 它 增 加 了 加 解密 的 系统 开销 。 如 果 不 需要 加 密 ， 
那 就 使 用 netcat 把 “ 裸 ” 数 据 进行 跨 网 复制 。 可 以 通过 nc 以 非 交互 式 操作 方式 调用 这 个 
工具 ， 这 正 是 我 们 想 要 的 。 


这 里 有 一 个 例子 。 首先, 在 server2 上 监听 12345 端口 (任何 闲置 的 端口 都 可 以 ) 上 的 文件 ， 
把 任何 发 送 到 该 端口 的 东西 都 解压 缩 到 期 望 的 数据 文件 里 。 


server2$ nc -l -p 12345 | gunzip -c - > /var/lib/mysql/mydb/mytable.MYD 


然后 在 serverl 上， 开启 另 一 个 netcat 实例 ， 发 送 数据 到 目的 服务 器 监听 的 端口 上 L。-5 
选项 告诉 netcat 当 到 达 输 入 文件 的 末尾 后 就 关闭 连接 。 这 会 触发 监听 实例 关闭 接收 的 文 
件 并 退出 。 


server1$ gzip -c - /var/lib/mysql/mydb/mytable.MYD | nc -q 1 server2 12345 


更 容易 的 技术 是 使 用 tar， 这 样 文件 名 称 也 会 通过 网 络 发 送出 去 ， 从 而 消除 了 另 一 个 错 
误 的 来 源 ， 并 会 目 动 将 文件 写 到 正确 的 位 置 。z 选项 告诉 tar 使 用 gzip 做 压缩 和 解压 缩 。 
下 面 是 在 server2 上 执行 的 命令 。 

server2$ nc -1 -p 12345 | tar xvzf - 
以 下 是 在 server] 上 执行 的 命令 。 

server1$ tar cvzf - /var/lib/mysql/mydb/mytable.MYD | nc -q 1 server2 12345 


你 可 以 把 这 些 命令 集成 到 一 个 单独 的 脚本 里 ， 这 样 压缩 和 复制 大 量 的 文件 到 网 络 连 接 时 
效率 会 比较 高 ， 然 后 在 另 一 端 解压 缩 。 


其 他 选项 

另外 一 个 选择 是 rsync。rsync 非常 简便 ， 因 为 它 易于 在 源 和 目标 之 间 做 镜像 ， 并 且 还 可 
以 断 点 续 传 。 但 是 , 当 它 的 二 进 制 差异 算法 无 法 被 很 好 地 发 挥 时 , 它 不 太 会 得 到 很 好 应 用 。 
在 知道 文件 中 的 大 部 分 内 容 都 不 需要 传输 的 场景 下 ， 例 如 ， 如 果 要 续 传 一 个 中 途 退 出 的 
nc 复制 的 任务 ， 就 可 以 考虑 用 它 。 


在 还 没有 处 于 危急 关头 时 就 应 该 针对 文件 传输 做 一 些 实验 ， 因 为 发 现 哪 一 种 方法 最 快 可 
能 要 做 许多 试验 和 过 到 许多 错误 。 哪 一 种 方法 最 快 取决 于 你 的 系统 。 其 中 最 大 的 影响 因 
素 是 服务 器 上 的 磁盘 驱动 器 、 网 卡 和 CPU 的 数量 ， 以 及 它们 之 间 相 对 的 速度 有 多 快 。 有 
个 不 错 的 方法 是 监控 vmstat -n 5， 看 磁盘 或 CPU 是 否 就 是 速度 的 瓶颈 。 
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如 果 有 闲置 的 CPU， 就 可 能 通过 运行 并 行 复制 操作 来 加 快 整个 过 程 。 相 反 ， 如 采 CPU 
已 经 是 瓶颈 ， 而 磁盘 和 网 络 的 承载 能 力 还 比较 充裕 ， 那 就 可 以 不 压缩 。 在 导出 和 还 原 时 ， 
出 于 速度 的 考虑 ， 并 行 执行 这 些 操作 往往 是 个 不 错 的 主意 。 此 外 ， 监 挖 服务器 性 能 ， 看 
看 是 否 还 有 闲置 的 承载 能 力 。 过 度 的 并 行 反而 会 降低 处 理 速 度 。 


文件 复制 的 基准 测试 

为 了 便于 比较 ， 表 C-1 显示 的 是 在 局 域 网 里 通过 一 块 标 准 的 百 兆 以 太 网 链 路 复制 一 个 样 
本 文件 能 达到 的 最 快速 度 。 这 个 文件 未 压缩 时 的 大 小 是 738MB ， 使 用 gzip 默认 选项 压 
缩 后 是 100MB。 源 和 目的 机 器 都 有 充足 的 可 用 内 存 、CPU 资源 和 磁盘 空间 ; WBE 
颈 所 在 。 

表 C-1， 跨 网 复制 文件 的 基准 测试 


方法 o E 时 间 (s) 
rsync， 不 使 用 压缩 71 
SCD， 不 使 用 压缩 68 
mc， 不 使 用 压缩 67 
rsync， 使 用 压缩 (-z) 63 
gzip, scp 和 gunzip 60(44+10+6) 
ssh, EHEH 44 
nc， 使 用 压缩 42 


prtm aam a a a a ana ea. a n ern m n a ea m e a a n e a a a a e re a e Aa are a aaen a a a 


注意 通过 网 络 发 送 文件 时 压缩 有 多 大 的 帮助 一 一 最 慢 的 三 个 方法 并 没有 压缩 文件 。 尽 管 
这 样 ， 好 处 也 不 一 。 如 有 果 CPU 和 磁盘 慢 但 有 一 个 千 兆 以 太 网 连接 ， 那 么 谈 取 和 压缩 文件 
可 能 是 瓶颈 ， 不 压缩 反而 更 快 。 


顺便 提 一 下 ， 使 用 类 似 gzip --fast 的 快速 压缩 比 默认 压缩 级 别 要 快 许多 ， 因 为 后 者 要 使 
用 许多 的 CPU 时 间 来 对 文件 多 做 一 点 压缩 。 我 们 的 测试 基于 默认 压缩 级 别 。 


传输 文件 的 最 后 一 步 是 验证 复制 过 程 没 有 损坏 文件 。 可 以 使 用 许多 方法 ， 例 如 md5sum， 
但 再 次 对 文件 做 完整 扫描 也 相当 昂贵 。 这 也 是 压缩 很 有 用 的 另外 一 个 原因 : 压缩 本 身 往 
往 包括 至 少 一 个 循环 元 余 检 测 《CRC) ， 而 它 应 该 能 发 现任 何 错误 ， 因 此 不 需要 做 错误 
检测 。 
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附录 D 


EXPLAIN 


这 个 附录 显示 了 如 何 调用 “EXPLAIN” 来 获取 关于 查询 执行 计划 的 信息 ， 以 及 如 何 解释 输 
出 。EXPLAIN 命令 是 查看 查询 优化 器 如 何 决定 执行 查询 的 主要 方法 。 这 个 功能 有 局 限 性 ， 
并 不 总 会 说 出 真相 ， 但 它 的 输出 是 可 以 获取 的 最 好 信息 ， 值 得 花 时 间 了 解 ， 因 为 可 以 学 
习 到 查询 是 如 何 执行 的 。 学 会 解释 EXPLAIN 将 帮助 你 了 解 MySQL 优化 器 是 如 何 工作 的 。 


调用 EXPLAIN 


要 使 用 EXPLAIN， 只 需 在 查询 中 的 SELECT 关键 字 之 前 增加 EXPLAIN 这 个 词 。MySQL 会 
在 查询 上 设置 一 个 标记 。 当 执行 查询 时 ， 这 个 标记 会 使 其 返回 关于 在 执行 计划 中 每 一 步 
的 信息 ， 而 不 是 执行 它 。 它 会 返回 一 行 或 多 行 信息 ， 显 示 出 执行 计划 中 的 每 一 部 分 和 执 
行 的 次 序 。 


下 面 是 一 个 可 能 的 最 简单 的 EXPLAIN 结果 。 


mysql> EXPLAIN SELECT 1\G 
HE A OK I OK 2 OK A OK OK k EK OK KOK kk kkk 1 。 LOW EEEE E k k k kkk kk kkk kkk 
id: 1 
select_type: SIMPLE 
table: NULL 
type: NULL 
possible keys: NULL 
key: NULL 
key_len: NULL 
ref: NULL 
rows: NULL 
Extra: No tables used 


在 查询 中 每 个 表 在 输出 中 只 有 一 行 。 如 果 查 询 是 两 个 表 的 联接 ， 那 么 输出 中 将 有 两 行 。 
别名 表单 算 为 一 个 表 ， 因 此 ， 如 果 把 一 个 表 与 自己 联接 ， 输 出 中 也 会 有 两 行 。" 表 ”的 意 
义 在 这 里 相当 广 : 可 以 是 一 个 子 查询 , 一 个 UNION ER, 等 等 。 稍 后 会 看 到 为 什么 是 这 样 。 
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EXPLAIN 有 两 个 主要 的 变种 。 


e EXPLAIN EXTENDED 看 起 来 和 正常 的 EXPLAIN 的 行为 一 样 ， 但 它 会 告诉 服务 器 “逆向 
编译 ”执行 计划 为 一 个 SELECT 语句。 可 以 通过 紧 接 其 后 运行 SHOW WARNINGS 看 到 
这 个 生成 的 语句 。 这 个 语句 直接 来 自 执行 计划 ， 而 不 是 原 SQL 语句 ， 到 这 点 上 已 经 
变 成 一 个 数据 结构 。 在 大 部 分 场景 下 它 都 与 原 语 句 不 相同 。 你 可 以 检测 查询 优化 器 
到 底 是 如 何 转化 语句 的 。EXPLAIN EXTENDED 在 MySQL 5.0 和 更 新 版 本 中 可 用 ， 在 
MySQL 5.1 ( 稍 后 会 做 更 多 讨论 ) 额外 增加 了 一 个 人 tered žil. 

e EXPLAIN PARTITIONS 会 显示 查询 将 访问 的 分 区 ， 如 果 查 询 是 基于 分 区 表 的 话 。 它 只 
在 MySQL 5.1 和 更 新 版 本 中 存在 。 


认为 增加 EXPLAIN 时 MySQL 不 会 执行 查询 ， 这 是 一 个 常见 的 错误 。 事 实 上 ， 如 果 查 询 
在 FROM 子 句 中 包括 子 查询 ， 那 么 MySQL 实际 上 会 执行 子 查询 ， 将 其 结果 放 在 一 个 临时 
表 中 ， 然 后 完成 外 层 查询 优化 。 它 必须 在 可 以 完成 外 层 查 询 优化 之 前 处 理 所 有 类 似 的 子 
查询 ， 这 对 于 EXPLAIN 来 说 是 必须 要 做 的 = :。 这 意味 着 如 果 语 句 包含 开销 较 大 的 子 查询 
或 使 用 临时 表 算 法 的 视图 ， 实 际 上 会 给 服务 器 带 来 大 量 工 作 。 


要 意识 到 EXPLAIN 只 是 个 近似 结果 ， 别 无 其 他 。 有 时 候 它 是 一 个 很 好 的 近似 ， 但 在 其 他 
时 候 ， 可 能 与 真相 相差 甚 远 。 以 下 是 一 些 相关 的 限制 。 


e ”EXPLAIN 根 本 不 会 告诉 你 触发 器 、 存 储 过 程 或 UDF 会 如 何 影响 查询 。 

© 它 并 不 支持 存储 过 程 ， 尽 管 可 以 手动 抽取 查询 并 单独 地 对 其 进行 EXPLAIN 操作 。 

。 CHAS AUR MySQL 在 查询 执行 中 所 做 的 特定 优化 。 

© 它 并 不 会 显示 关于 查询 的 执行 计划 的 所 有 信息 (MySQL 开发 者 会 尽 可 能 增加 更 多 信 
息 )。 

。 它 并 不 区 分 具有 相同 名 字 的 事物 。 例 如 , 它 对 内 存 排序 和 临时 文件 都 使 用 “filesort”， 
并 且 对 于 磁盘 上 和 内 存 中 的 临时 表 都 显示 “Using temporary”. 

[721> 。 可 能 会 误导 。 例如 , 它 会 对 一 个 有 着 很 小 LIMIT 的 查询 显示 全 索引 扫描 。(MySQL 5.1 

的 EXPLAIN 关 于 检查 的 行 数 会 显示 更 精确 的 信息 ， 但 早期 版 本 并 不 考虑 LIMIT, ) 


重 写 非 SELECT 查询 


MySQL EXPLAIN 只 能 解释 SELECT 查询 ， 并 不 会 对 存储 程序 调用 和 INSERT、UPDATE、 
DELETE 或 其 他 语句 做 解释 。 然 而 ， 你 可 以 重 写 某 些 非 SELECT 查询 以 利用 EXPLAIN。 为 了 
达到 这 个 目的 ， 只 需要 将 该 语句 转化 成 一 个 等 价 的 访问 所 有 相同 列 的 SELECT。 任 何 提 及 
的 列 都 必须 在 SELECT 列表 ， 关 联 子 句 ， 或 者 WHERE 子 句 中 。 


注 1: 这 个 限制 在 MySQL 5.6 中 将 被 取消 。 
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例如 ， 假 如 你 想 重 写 下 面 的 UPDATE 语句 以 使 其 可 以 利用 EXPLAIN, 


UPDATE sakila.actor 
INNER JOIN sakila.film actor USING (actor id) 
SET actor.last update=film actor.last update; 


下 面 的 EXPLAIN 语句 并 不 等 价 于 上 面 的 UPDATE， 因 为 它 并 不 要 求 服务 器 从 任何 一 个 表 上 


获取 last update 列 。 


mysql> EXPLAIN SELECT film actor.actor id 
-> FROM sakila.actor 
-> INNER JOIN sakila.film_actor USING (actor_id)\G 
aokk kkk kkk kkk kk 人 。 了 OW RRR RRR RRR KARR ARK kkk kk 
id: 1 
select_type: SIMPLE 
table: actor 
type: index 
possible keys: PRIMARY 
key: PRIMARY 
key_len: 2 
: ref: NULL 
rows: 200 
Extra: Using index 
HRA K EKER KKK KAKA RARK 7 。 YOW eR Ra Rao aR a kkk kkk kk kkk kk 
id: 1 
select_type: SIMPLE 
‘table: film_actor 
| type: ref 
possible keys: PRIMARY 
key: PRIMARY 
key_len: 2 
ref: sakila.actor.actor_id 
rows: 13 
Extra: Using index 


这 个 差别 非常 重要 。 例 如 ， 输 出 结果 显示 MySQL 将 使 用 覆盖 索引 ， 但 是 ， 当 检索 并 更 
新 last updated 列 时 ， 就 无 法 使 用 覆盖 索引 了 。 下 面 这 种 改写 法 就 更 接近 原来 的 语句 : 


mysql> EXPLAIN SELECT film actor.last update, actor.last update 
-> FROM sakila.actor 
-> INNER JOIN sakila.film actor USING (actor_id)\G 
HA AA A AK kkk kkk k kkk 1. row e246 oe 2h 2 2 2 E 2A OK 24g 9 6 2K KE k k k k 2K 
id: 1 
select_type: SIMPLE 
table: actor 
type: ALL 
possible keys: PRIMARY 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 200 
Extra: 
RARER KK ARKH RAK KKKAKEKKE 2 row 2 Fe 2 oe 2h 2 og 2 2K aK 6 2 Ke OK K OK kk kK OK k kk 


id: 1 


调用 EXPLAIN 
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select_type: SIMPLE 
table: film_actor 
type: ref 
possible keys: PRIMARY 
key: PRIMARY 
key len: 2 
ref: sakila.actor.actor_id 
rows: 13 


像 这 样 重 写 查询 并 不 非常 科学 ,但 对 帮助 理解 查询 是 怎么 做 的 经 常 已 足够 好 了 。? 


显示 计划 时 ， 对 于 写 查 询 并 没有 “等 价 ” 的 读 查 询 ， 理 解 这 一 点 非常 重要 。 一 个 SELECT 
查询 只 需要 找到 数据 的 一 份 副本 并 返回 。 而 任何 修改 数据 的 查询 必须 在 所 有 索引 上 查找 
并 修改 其 所 有 副本 。 这 常常 比 看 起 来 等 价 的 SELECT 查询 的 消耗 要 高 得 多 。 


EXPLAIN 中 的 列 


EXPLAIN 的 输出 总 是 有 相同 的 列 (只 有 EXPLAIN EXTENDED 在 MySQL 5.1 中 增加 了 一 个 
filtered I] ,EXPLAIN PARTITIONS 增 加 了 一 个 Partitions 列 )。 可 变 的 是 行 数 及 内 容 。 然 而 ， 
为 了 保持 我 们 的 例子 简洁 明了 ， 我 们 在 本 附录 中 不 总 是 显示 所 有 的 列 。 


在 接 下 来 的 小 节 中 ， 我 们 将 展示 在 EXPLAIN 结果 中 每 一 列 的 意义 。 记 住 ， 输 出 中 的 行 以 
MySQL 实际 执行 的 查询 部 分 的 顺序 出 现 , 而 这 个 顺序 不 总 是 与 其 在 原始 SQL 中 的 相 一 致 。 


id 列 

a 标识 SELECT 所 属 的 行 。 如 果 在 语句 当中 设 有 子 查询 或 联 
， 那 么 只 会 有 唯一 的 SELECT， 于 是 每 一 行 在 这 个 列 中 都 将 显示 一 个 1。 否 则 ， 内 层 的 

cae 般 会 顺序 编号 ， 对 应 于 其 在 原始 语句 中 的 位 置 。 


MySQL 将 SELECT 查询 分 为 简单 和 复杂 类 型 ， 复 杂 类 型 可 分 成 三 大 类 : 简单 子 查询 、 所 
谓 的 派生 表 (在 FROM 子 句 中 的 子 查询 ) 六 ,以 及 UNION 查询。 下面 是 一 个 简单 的 子 查询 。 


baie EXPLAIN ase a 1 FROM sakila.actor LIMIT 1) FROM sakila.film; 


+----+-------------+------- 十 。 
| id | select_type | table |.. 
+----+-------------+------- +, 
| 1 | PRIMARY film I. 
| 2 | SUBQUERY | actor |... 
+----+------------- +------- +... 


422: MySQL 5.6 将 允许 解释 非 SELECT 查询 。 万 岁 ! 
注 3 : ”FROM 子 铅 中 的 子 查 询 是 派生 表 ” 这 一 表述 是 对 的 ， 但 “派生 表 是 FROM 子 名 中 的 子 查询 ” 则 不 对 ， 
术语 “派生 表 ” 在 SQL 中 含义 很 宽泛 。 
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FROM 子 句 中 的 子 查询 和 联合 给 id 列 增加 了 更 多 复杂 性 。 下 面 是 一 个 FROM 子 句 中 的 基本 
子 查询 。 


ee EXPLAIN cue film id her POEET film_id FROM sakila.film) AS der; 


RIMARY | <derived2> |... 
ERIVED | film late 


oOo vu 


如 你 所 知 ， 这 个 查询 执行 时 有 一 个 匿名 临时 表 。MySQL 内 部 通过 别名 (der) 在 外 层 查 
询 中 引用 这 个 临时 表 ， 在 更 复杂 的 查询 中 可 以 看 到 ref 列 。 


最 后 ， 下 面 是 一 个 UNION 查询 。 


mysql> oe SELECT : UNION ALL SELECT 1; 


+------+--------------+------------ +, 

| id | select type | table Joe 
+------+--------------+------------ Fesi 
| 4 | PRIMARY | NULL = 
| 2 | UNION | NULL fe 
| NULL | UNION RESULT | <unioni,2> |.. 

+------ +-------------- +------------ +。。。 


注意 UNION 结果 输出 中 的 额外 行 。UNION 结果 总 是 放 在 一 个 匿名 临时 表 中 ， 之 后 MySQL 

将 结果 读 取 到 临时 表 外 。 临 时 表 并 不 在 原 SQL 中 出 现 ， 因 此 它 的 id 列 是 NULL。 与 之 前 <4] 
的 例子 相 比 〈 演 示 子 查询 的 那个 FROM 子 句 中 ) ， 从 这 个 查询 产生 的 临时 表 在 结果 中 出 现 
在 最 后 一 行 ， 而 不 是 第 一 行 。 


到 目前 为 止 这 些 都 非常 直截了当 ， 但 这 三 类 语句 的 混合 则 会 使 输出 变 得 非常 复杂 ， 我 们 
稍 后 就 会 看 到 。 


select_type 列 


这 一 列 显示 了 对 应 行 是 简单 还 是 复杂 SELECT (如 果 是 后 者 ， 那 么 是 三 种 复杂 类 型 中 的 哪 
一 种 )。SIMPLE 值 意 味 着 查询 不 包括 子 查 询 和 UNION。 如 果 查 询 有 任何 复杂 的 子 部 分 ， 则 
最 外 层 部 分 标记 为 PRIMARY， 其 他 部 分 标记 如 下 。 


SUBQUERY 


包含 在 SELECT 列表 中 的 子 查 询 中 的 SELECT ( 换 名 话说， 不 在 FROM 子 句 中 ) 标记 为 
SUBQUERY, 
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DERIVED 
DERIVED 值 用 来 表示 包含 在 FROM 子 句 的 子 查询 中 的 SELECT, MySQL 会 递归 执行 并 
将 结果 放 到 一 个 临时 表 中 。 服 务 器 内 部 称 其 “派生 表 ”， 因 为 该 临时 表 是 从 子 查 询 中 
派生 来 的 。 

UNION 
在 UNION 中 的 第 二 个 和 随后 的 SELECT 被 标记 为 UNION。 第 一 个 SELECT 被 标记 就 好 
像 它 以 部 分 外 查询 来 执行 。 这 就 是 之 前 的 例子 中 在 UNION 中 的 第 一 个 SELECT 显示 为 
PRIMARY 的 原因 。 如 果 UNION 被 FROM 子 句 中 的 子 查询 包含 ， 那 么 它 的 第 一 个 SELECT 
会 被 标记 为 DERIVED。 

UNION RESULT 
用 来 从 UNION 的 匿名 临时 表 检 索 结 果 的 SELECT 被 标记 为 UNION RESULT, 


除了 这 些 值 ，SUBQUERY 和 UNION 还 可 以 被 标记 为 DEPENDENT 和 UNCACHEABLE, DEPENDENT 
意味 着 SELECT 依赖 于 外 层 查 询 中 发 现 的 数据 ; UNCACHEABLE 意味 着 SELECT 中 的 某 些 特 
性 阻止 结果 被 缓存 于 一 个 Item_cache 中 。(Item_cache 未 被 文档 记载 ， 它 与 查询 缓存 不 
是 一 回 事 ， 尽 管 它 可 以 被 一 些 相 同类 型 的 构件 否定 ， 例 如 RAND() 函数 。) 


table 列 


这 一 列 显示 了 对 应 行 正在 访问 哪个 表 。 在 通常 情况 下 ， 它 相当 明了 , 它 就 是 那个 表 ,或 
是 该 表 的 别名 (如 果 SQL 中 定义 了 别名 )， 


可 以 在 这 一 列 中 从 上 往 下 观察 MySQL 的 关联 优化 器 为 查询 选择 的 关联 顺序 。 例 如 ， 可 
以 看 到 在 下 面 的 查询 中 MySQL 选择 的 关联 顺序 不 同 于 语句 中 所 指定 的 顺序 。 


mysql> EXPLAIN SELECT film.film_id 
-> FROM sakila.film 
-> INNER JOIN sakila.film_actor USING(film_id) 
-> INNER JOIN sakila.actor USING(actor_id); 


+----+------------- +------------ +。 

| id | select type | table |... 
+----+-------------+------------ +... 
| 1 | SIMPLE i actor eee 
| 1 | SIMPLE | film actor |... 
| 1 | SIMPLE | film eae 
+----+------------- +------------ +. 


想起 我 们 在 第 6 章 中 展示 的 左 侧 深度 优先 〈left-deep) HTS? MySQL 的 查询 执行 计划 
总 是 左 侧 深度 优先 树 。 如 果 把 这 个 计划 放 倒 ， 就 能 按 顺 序 读 出 叶子 节点 ， 它 们 直接 对 应 
于 EXPLAIN 中 的 行 。 之 前 的 查询 计划 看 起 来 如 图 D-1 所 示 。 
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图 D-1: 查询 执行 计划 与 EXPLAIN 中 的 行 相对 应 的 方式 


派生 表 和 联合 
当 FROM 子 甸 中 有 子 查询 或 有 UNION 时 ，table 列 会 变 得 复杂 得 多 。 在 这 些 场景 下 ， 确 实 
没有 一 个 “ 表 ” 可 以 参考 到 ， 因 为 MySQL 创建 的 匿名 临时 表 仅 在 查询 执行 过 程 中 存在 。 


当 在 FROM 子 句 中 有 子 查询 时 ，tabte 列 是 <derivedN> 的 形式 ， 其 中 内 是 子 查 询 的 id. 
这 总 是 “向 前 引用 ” 一 一 换言之 ， N #815] EXPLAIN 输出 中 后 面 的 一 行 。 


24A UNION}, UNION RESULT 的 table 列 包含 一 个 参与 UNION 的 id WIR, Ke “lal 
后 引用 ”， 因 为 UNION RESULT 出 现在 UNION 中 所 有 参与 行 之 后 。 如 果 在 列表 中 有 超过 20 
个 id，table 列 可 能 被 截断 以 防止 太 长 ， 此 时 不 可 能 看 到 所 有 的 值 。 幸 运 的 是 ， 仍 然 可 
以 推测 包括 哪些 行 ， 因 为 你 可 以 看 到 第 一 行 的 id。 在 这 一 行 和 UNION RESULT 之 间 出 现 
的 一 切 都 会 以 某 种 方式 被 包含 。 


一 个 复杂 SELECT 类 型 的 例子 


下 面 是 一 个 无 意义 的 查询 ， 我 们 这 里 把 它 用 作 某 种 复杂 SELECT 类 型 的 紧凑 示例 。 


>» 
FOU ON DAU BWNHN BP 


> 
N 


e e ba e 
Ou pw 


EXPLAIN 
SELECT actor_id, 
(SELECT 1 FROM sakila.film_actor WHERE film_actor.actor_id = 
der 1.actor_id LIMIT 1) 
FROM ( 
SELECT actor_id 
FROM sakila.actor LIMIT 5 
) AS der 1 
UNION ALL 
SELECT film id, 
(SELECT @vari FROM sakila.rental LIMIT 1) 
FROM ( 
SELECT film id, 
= (SELECT 1 FROM sakila.store LIMIT 1) 
FROM sakila.film LIMIT 5 
) AS der 2; 


EXPLAIN 中 的 列 
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LIMIT 子 句 只 是 为 了 方便 起 见 ， 以 防 你 打算 不 以 EXPLAIN 方 式 执行 来 看 结果 。 下 面 是 


EXPLAIN 的 结果 。 
+------ +---------------------- SS = Ne 
| id | select type | table kosa 
十 ~ 一 一 一 = 一 十 = 一 = 一 一 一 一 ”一 一 一 ”~ 一 ”一 ”一 一 ~ 一 ”~ 二 二 一 一 一 一 一 一 一 之 二 Fars 
| 1 | PRIMARY | <derived3> |... 
| 3 | DERIVED | actor sare 
| 2 | DEPENDENT SUBQUERY | film actor |... 
| 4 | UNION | <derived6> |... 
| 6 | DERIVED | film ee 
| 7 | SUBQUERY | store EF 
| 5 | UNCACHEABLE SUBQUERY | rental lads 
| NULL | UNION RESULT | <union1,4> |... 
+------ -= 十 一 一 一 一 一 ”一 一 ”= 一 =” 十 。。。 


我 们 特意 让 每 个 查询 部 分 访问 不 同 的 表 ， 以 便 可 以 弄 清 问题 所 在 ， 但 仍然 难以 解决 ! 从 
最 上 面 开 始 看 。 
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第 1 行 向 前 引用 了 der_1， 这 个 查询 被 标记 为 <derived3>。 在 原 SQL 中 是 第 2 行 。 
想 了 解 输出 中 哪些 行 引 用 了 <derived3> 中 的 SELECT 语句 ， 往 下 看 …… 

seee 第 2 行 ， 它 的 id 是 3。 因为 它 是 查询 中 第 3 个 SELECT 的 一 部 分 ， 归 为 DERIVED 
KA EAA CREE FROM 子 句 中 的 子 查询 内 部 。 在 原 SQL 中 为 第 6 ~ 7 行 。 

第 3 行 的 id 为 2。 在 原 SQL 中 为 第 3 行 。 注 意 ， 它 在 具有 更 高 id 的 行 后 面 ， 暗 示 
后 面 再 执行 ， 这 是 合理 的 。 它 被 归 为 DEPENDENT SUBQUERY， 意 味 着 其 结果 依赖 于 外 
层 查 询 ( 亦 即 某 个 相关 子 查询 )。 本 例 中 的 外 查询 是 从 第 2 行 开始 ， 从 der_1 中 检索 
数据 的 SELECT。 

第 4 行 被 归 为 UNION， 意 味 着 它 是 UNION 中 的 第 2 个 或 之 后 的 SELECT。 它 的 表 为 
<derived6>， 意 味 着 是 从 子 句 FROM 的 子 查询 中 检索 数据 并 附加 到 UNION 的 临时 表 。 
像 之 前 一 样 ， 要 找到 显示 这 个 子 查询 的 查询 计划 的 EXPLAIN 行 ， 必 须 往 下 看 。 

第 5 行 是 在 原 SQL 中 第 13、14 和 15 行 定义 的 der_2 子 查询 ，EXPLAIN 称 其 为 
<derived6>。 


第 6 行 是 <derived6> 的 SELECT 列表 中 的 一 个 普通 子 查 询 ， 它 的 id 为 7， 这 非常 重 


“ee 因为 它 比 5 大 ,而 5 是 第 7 行 的 ijd。 为 什么 重要 ?因为 它 显示 了 <derived6> 
子 查 询 的 边界 。 当 EXPLAIN 输出 SELECT 类 型 为 DERIVED 的 一 行 时 ， 表 示 一 个 “ 幅 套 
范围 ”开始 。 如 果 后 续 行 的 id 更 小 (本 例 中 ，5 小 于 6) ， 意 味 着 仍 套 范围 已 经 被 关 
闭 。 这 就 让 我 们 知道 第 7 行 是 从 <derived6> 中 检索 数据 的 SELECT 列表 中 的 部 分 一 一 
例如 ,第 4 行 的 SELECT 列表 的 一 部 分 ( 原 SQL 中 第 11 行 )。 这 个 例子 相当 容易 理解 ， 
不 需要 知道 嵌 套 范围 的 意义 和 规则 ， 当 然 有 时 候 并 不 是 这 么 容易 。 关 于 输出 中 的 这 
一 行 另 外 一 个 要 注意 的 是 ， 因 为 有 用 户 变 量 ， 它 被 列 为 UNCACHEABLE SUBQUERY., 
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。 最 后 一 行 是 UNION RESULT。 它 代表 从 UNION 的 临时 表 中 读 取 行 的 阶段 。 你 可 以 从 这 
行 开始 反 过 来 向 后 ， 如 果 你 愿意 的 话 。 它 会 返回 id 是 1 和 4 的 行 结 果 ， 它 们 分 别 引 
用 了 <derived3> 和 <derived6>, 


如 你 所 见 ， 这 些 复杂 的 SELECT 类 型 的 组 合 会 使 EXPLAIN 的 输出 相当 难 懂 。 理 解 规则 会 使 
其 简单 些 ， 但 仍然 需要 多 实践 。 


阅读 EXPLAIN 的 输出 经 常 需要 在 列表 中 跳 来 跳 去 。 例 如 ,再 查看 第 一 行 输出 。 仅仅 盯 着 看 ， 
是 无 法 知道 它 是 UNION 的 一 部 分 的 。 只 有 看 到 最 后 一 行 你 才 会 明白 过 来 。 


type 列 

MySQL 用 户 手 册 上 说 这 一 列 显示 了 “关联 类 型 "*， 但 我 们 认为 更 准确 的 说 法 是 访问 类 
型 一 一 换言之 就 是 MySQL 决定 如 何 查 找 表 中 的 行 。 下 面 是 最 重要 的 访问 方法 ， 依 次 从 
最 差 到 最 优 。 


ALL 
这 就 是 人 们 所 称 的 全 表 扫 描 ， 通 常 意味 着 MySQL 必须 扫描 整 张 表 ， 从 头 到 尾 ， 去 
找到 需要 的 行 。( 这 里 也 有 个 例外 ， 例 如 在 查询 里 使 用 了 LIMIT, 或 者 在 Extra 列 中 
显示 “Using distinct/not exists” , ) 

index 
XR et, RE MySQL 扫描 表 时 按 索 引 次 序 进行 而 不 是 行 。 它 的 主要 
优点 是 避免 了 排序 ; 最 大 的 缺点 是 要 承担 按 索引 次 序 读 取 整 个 表 的 开销 。 这 通常 意 
味 着 若是 按 随机 次 序 访问 行 ， 开 销 将 会 非常 大 。 
如 果 在 Extra 列 中 看 到 “Using index”, 说 明 MySQL 正在 使 用 和 覆盖 索引 ， 它 只 扫描 
索引 的 数据 ,而 不 是 按 索 引 次 序 的 每 一 行 。 它 比 按 索 引 次 序 全 表 扫 描 的 开销 要 少 很 多 。 

range 
邯 围 扫描 就 是 一 个 有 限制 的 索引 扫描 ， 它 开始 于 索引 里 的 某 一 点 ， 返 回 匹配 这 个 值 
域 的 行 。 这 上 比 全 索引 扫描 好 一 些 ， 因 为 它 用 不 着 遍历 全 部 索引 。 显 而 易 见 的 范围 扫 
描 是 带 有 BETWEEN 或 在 WHERE 子 句 里 带 有 > 的 查询 。 
当 MySQL 使 用 索引 去 查找 一 系列 值 时 , 例如 IN() 和 0R 列表 , 也 会 显示 为 范围 扫描 。 
然而 ， 这 两 者 其 实 是 相当 不 同 的 访问 类 型 ， 在 性 能 上 有 重要 的 差异 。 更 多 信息 可 以 
查看 第 5 章 的 文章 “什么 是 范围 条 件 ”。 
此 类 扫描 的 开销 跟 索 引 类 型 相当 。 

ref 
这 是 一 种 索引 访问 《有 时 也 叫做 索引 查找 ) ， 它 返回 所 有 匹配 某 个 单个 值 的 行 。 然 
而 ， 它 可 能 会 找到 多 个 符合 条 件 的 行 ， 因 此 ， 它 是 查找 和 扫描 的 混合 体 。 此 类 索引 


EXPLAIN 中 的 列 | 695 


729 


访问 只 有 当 使 用 非 唯一 性 索引 或 者 唯一 性 索引 的 非 唯一 性 前 组 时 才 会 发 生 。 把 它 叫 
做 ref 是 因为 索引 要 跟 某 个 参考 值 相 比较 。 这 个 参考 值 或 者 是 一 个 常数 ， 或 者 是 来 
自 多 表 查 询 前 一 个 表 里 的 结果 值 。 
ref_or_null 是 ref 之 上 的 一 个 变 体 ， 它 意味 着 MySQL 必须 在 初次 查找 的 结果 里 进 
行 第 二 次 查找 以 找 出 NULL 条 目 。 

eq_ref 
使 用 这 种 索引 查找 ，MySQL 知道 最 多 只 返回 一 条 符合 条 件 的 记录 。 这 种 访问 方法 可 
以 在 MySQL 使 用 主键 或 者 唯一 性 索引 查找 时 看 到 ， 它 会 将 它们 与 某 个 参考 值 做 比 
较 。MySQL 对 于 这 类 访问 类 型 的 优化 做 得 非常 好 ， 因 为 它 知道 无 须 估 计 匹 配 行 的 范 
围 或 在 找到 匹配 行 后 再 继续 查找 。 

const, system 
当 MySQL 能 对 查询 的 某 部 分 进行 优化 并 将 其 转换 成 一 个 常量 时 ， 它 就 会 使 用 这 些 
访问 类 型 。 举 例 来 说 ， 如 果 你 通过 将 某 一 行 的 主键 放 入 WHERE 子 句 里 的 方式 来 选取 
此 行 的 主键 ，MySQL 就 能 把 这 个 查询 转换 为 一 个 和 常量。 然后 就 可 以 高 效 地 将 表 从 联 
接 执行 中 移 除 。 

NULL 
这 种 访问 方式 意味 着 MySQL 能 在 优化 阶段 分 解 查 询 语句 ， 在 执行 阶段 甚至 用 不 着 
再 访问 表 或 者 索引 。 例 如 ,从 一 个 索引 列 里 选取 最 小 值 可 以 通过 单独 查找 索引 来 完成 ， 
不 需要 在 执行 时 访问 表 。 


possible_keys 列 

这 一 列 显 示 了 查询 可 以 使 用 哪些 索引 ， 这 是 基于 查询 访问 的 列 和 使 用 的 比较 操作 符 来 判 
断 的。 这 个 列表 是 在 优化 过 程 的 早期 创建 的 ， 因 此 有 些 罗 列 出 来 的 索引 可 能 对 于 后 续 优 
化 过 程 是 没 用 的 。 


key 列 

这 一 列 显 示 了 MySQL 决定 采用 哪个 索引 来 优化 对 该 表 的 访问 。 如 果 该 索引 没有 出 现在 
possible keys 列 中 ， 那 么 MySQL 选用 它 是 出 于 另外 的 原因 一 一 例如 ， 它 可 能 选择 了 
一 个 覆盖 索引 ， 哪 和 怕 没 有 WHERE FA. 


换 旬 话说 ，possible_keys 揭示 了 哪 一 个 索引 能 有 助 于 高 效 地 行 查找 ， 而 key 显示 的 是 
优化 采用 哪 一 个 索引 可 以 最 小 化 查询 成 本 (更 多 详情 请 参阅 第 6 章 中 关于 优化 的 成 本 度 
量 值 )。 下 面 就 是 一 个 例子 。 
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mysql> EXPLAIN SELECT actor_id, film_id FROM sakila.film_actor\G 
HRA AAA AHA A RAH RRA KEK 1. YOW Serer rr er eT ere rete tT et ttt 
id: 1 
select_type: SIMPLE 
table: film_actor 
type: index 
possible keys: NULL 
key: idx fk film id 
key_len: 2 
ref: NULL 
rows: 5143 
Extra: Using index 


key_len 列 

该 列 显示 了 MySQL 在 索引 里 使 用 的 字 节 数 。 如 果 MySQL 正在 使 用 的 只 是 索引 里 的 某 
些 列 ， 那 么 就 可 以 用 这 个 值 来 算出 具体 是 哪些 列 。 要 记 住 ，MySQL 5.5 及 之 前 版 本 只 能 
使 用 索引 的 最 左前 级。 举例 来 说 ，sakila.film actor 的 主键 是 两 个 SMALLINT 列 ， 并 且 
每 个 SMALLINT 列 是 两 字 节 ， 那 么 索引 中 的 每 项 是 4 字 节 。 以 下 就 是 一 个 查询 的 示例 : 


.+------+--------------- P n --------- +. 
.| type | possible keys | key | key_len |. 
.+------+---------------+--------- +--------- +. 
eT | PRIMARY | PRIMARY | 2 |. 
+------ +--------------- +--------- +--------- +。 


基于 结果 中 的 key_len 列 ， 可 以 推断 出 查询 使 用 唯一 的 首 列 一 一 actor_id 列 ， 来 执行 索 
引 查 找 。 当 我 们 计算 列 的 使 用 情况 时 ， 务 必 把 字符 列 中 的 字符 集 也 考虑 进去 。 


mysql> CREATE TABLE t ( 
-> a char(3) NOT NULL, 
-> b int(11) NOT NULL, 
-> c char(1) NOT NULL, 
-> PRIMARY KEY (a,b,c) 
-> ) ENGINE=MyISAM DEFAULT CHARSET=utf8 ; 
mysql> INSERT INTO t(a, b, c) 
-> SELECT DISTINCT LEFT(TABLE_SCHEMA, 3), ORD(TABLE_NAME), 
-> LEFT(COLUMN NAME, 1) 
-> FROM INFORMATION SCHEMA .COLUMNS: 
vee sehen SELECT a FROM t WHERE a='sak' AND b = 112; 


.+------+--------------- +--------- +--------- +. 
..| type | possible keys | key | key_len |.. 
.。.+------ +--------------- +--------- +--------- +e.. 
..| ref | PRIMARY | PRIMARY | 13 hog 
..+------ +--------------- +--------- +--------- +... 


这 个 查询 中 平均 长 度 为 13 字 节 ， 即 为 a 列 和 b 列 的 总 长 度 。a 列 是 3 个 字符 ，utf8 下 每 
一 个 最 多 为 3 字 节 ， 而 b 列 是 一 个 4 字 节 整 型 。 
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MySQL 并 不 总 显示 一 个 索引 真正 使 用 了 多 少 。 例 如 ， 如 果 对 一 个 前 缀 模式 匹配 执行 
LIKE 查询 ， 它 会 显示 列 的 完全 宽度 正在 被 使 用 。 


key_tLen 列 显示 了 在 索引 字段 中 可 能 的 最 大 长 度 ， 而 不 是 表 中 数据 使 用 的 实际 字 节 数 ， 
在 前 面 例子 中 MySQL 总 是 显示 13 字 节 ， 即 使 a 列 恰巧 只 包含 一 个 字符 长 度 。 换 言 之 ， 
key_len 通过 查找 表 的 定义 而 被 计算 出 ， 而 不 是 表 中 的 数据 


ref 列 


这 一 列 显 示 了 之 前 的 表 在 key 列 记录 的 索引 中 查找 值 所 用 的 列 或 常量 。 下 面 是 一 个 展示 
关联 条 件 和 别名 组 合 的 例子 。 注 意 ，ref 列 反 映 了 在 查询 文本 中 fitm 表 是 如 何以 f 为 别 
名 的 。 


mysql> EXPLAIN 
-> SELECT STRAIGHT JOIN f.film_id 
- -> FROM sakila.film AS f 
-> INNER JOIN sakila.film actor AS fa 
-> ON f.film_id=fa.film_id AND fa.actor_id = 1 
> INNER JOIN sakila.actor AS a USING(actor_id); 


a ee +--------- +------------------------ +。。 
...| table |...| key | key_len | ref |. 
.+------- +.。.+-------------------- +--------- +------------------------ +.. 
salia |...| PRIMARY | 2 | const Ree 
ar ls |...| idx fk language id | 1 | NULL ei 
| fa |...| PRIMARY | 4 | const, sakila.f.film id |... 
+------- +.。.+-------------------- +--------- +------------------------ + 


rows 列 
这 一 列 是 MySQL 估计 为 了 找到 所 需 的 行 而 要 读 取 的 行 数 。 这 个 数字 是 内 舱 循 环 关 联 计 
划 里 的 循环 数目 。 也 就 是 说 它 不 是 MySQL 认为 它 最 终 要 从 表 里 读 取 出 来 的 行 数 ， 而 是 
MySQL 为 了 找到 符合 查询 的 每 一 点 上 标准 的 那些 行 而 必须 读 取 的 行 的 平均 数 。( 这 个 标 
HE ALTE SQL 里 给 定 的 条 件 ， 以 及 来 自 联 接 次 序 上 前 一 个 表 的 当前 列 。) 
根据 表 的 统计 信息 和 索引 的 选用 情况 ， 这 个 估算 可 能 很 不 精确 。 在 MySQL 5.0 及 更 早 的 
版 本 里 ， 它 也 反映 不 出 LIMIT 子 句 。 举 例 来 说 ， 下 面 这 个 查询 不 会 真 的 检查 1 022 行 。 
mysql> EXPLAIN SELECT * FROM sakila.film LIMIT 1\G 
C rows: 1022 


通过 把 所 有 rows 列 的 值 相 乘 ， 可 以 粗略 地 估算 出 整个 查询 会 检查 的 行 数 。 例 如 ， 以 下 这 
个 查询 大 约会 检查 2 600 íT. 
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mysql> EXPLAIN 
-> SELECT f.film_id 
-> FROM sakila.film AS f 
-> INNER JOIN sakila.film_actor AS fa USING(film_id) 
-> INNER JOIN sakila.actor AS a USING(actor id); 
...t------ +。。。 
...| rows |... 


要 记 住 这 个 数字 是 MySQL 认为 它 要 检查 的 行 数 ， 而 不 是 结果 集 里 的 行 数 。 同 时 也 要 认 
识 到 有 很 多 优化 手段 ， 例 如 关联 缓冲 区 和 缓存 ， 无 法 影响 到 行 数 的 显示 。MySQL 可 能 
不 必 真 的 读 所 有 它 估 计 到 的 行 ， 它 也 不 知道 任何 关于 操作 系统 或 硬件 缓存 的 信息 。 


filtered 列 


这 一 列 是 在 MySQL 5.1 里 新 加 进去 的 ， 在 使 用 EXPLAIN EXTENDED 时 出 现 。 它 显示 的 是 
针对 表 里 符合 某 个 条 件 (WHERE 子 句 或 联接 条 件 ) 的 记录 数 的 百分比 所 做 的 一 个 悲观 估 
算 。 如 果 你 把 rows 列 和 这 个 百分比 相 乘 ， 就 能 看 到 MySQL 估算 它 将 和 查询 计划 里 前 一 
个 表 关 联 的 行 数 。 在 写作 本 书 的 时 候 ， 优 化 器 只 有 在 使 用 ALL、index、range 和 index_ 
merge 访问 方法 时 才 会 用 这 一 估算 。 


为 了 说 明 这 一 列 的 输出 形式 ， 我 们 创建 了 下 面 这 样 一 张 表 。 


CREATE TABLE t1 ( 
id INT NOT NULL AUTO INCREMENT, 
filler char(200), 
PRIMARY KEY(id) 

); 


然后 ， 我 们 往 表 里 插 入 1000 行 记录 ， 并 在 fiLLter 列 里 随机 填充 一 些 文字 。 它 的 用 途 是 
防止 MySQL 在 我 们 将 要 运行 的 查询 里 使 用 和 覆盖 索引 。 


mysql> EXPLAIN EXTENDED SELECT * FROM t1 WHERE id < 500\G 
FEE OCA 4 roy PE 
id: 1 
select_type: SIMPLE 
table: t1 
type: ALL 
possible keys: PRIMARY 
key: NULL 
key len: NULL 
ref: NULL 
rows: 1000 
filtered: 49.40 
Extra: Using where 
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MySQL 可 以 使 用 范围 访问 从 表 里 获 取 到 所 有 ID 不 超过 500 的 行 ， 但 是 ， 它 没 这 么 做 ， 
这 是 因为 那样 只 能 去 除 大 约 一 半 的 记录 ， 它 认为 全 表 扫 摘 也 不 是 太 昂 贵 。 因 此 ， 它 使 用 
了 全 表 扫 描 和 WHERE 子 句 来 过 站 输出 行 。 它 知道 使 用 WHERE 子 句 可 以 从 结果 里 过 滤 掉 多 


少 条 记录 ， 因 为 范围 访问 的 成 本 是 可 以 估算 出 来 的 。 这 也 就 是 49.40% 出 现在 filtered - 


列 上 的 原因 。 


Extra 列 


这 一 列 包含 的 是 不 适合 在 其 他 列 显示 的 额外 信息 。MySQL 用 户 手 册 里 记录 了 大 多 数 可 
以 在 这 里 出 现 的 值 。 其 中 许多 在 本 书 中 已 经 提 到 过 。 


常见 的 最 重要 的 值 如 下 。 


“Using index” 
此 值 表示 MySQL 将 使 用 覆盖 索引 ， 以 避免 访问 表 。 不 要 把 覆盖 索引 和 index 访问 
类 型 弄 混 了 。 


“Using where” 
这 意味 着 MySQL 服务 器 将 在 存储 引擎 检索 行 后 再 进行 过 滤 。 许 多 WHERE 条 件 里 涉 
及 索引 中 的 列 ， 当 (并且 如 果 ) 它 读 取 索引 时 ， 就 能 被 存储 引擎 检验 ， 因 此 不 是 所 
A WHERE 子 句 的 查询 都 会 显示 “Using where”, Alt “Using where” 的 出 现 就 是 
一 个 暗示 : 查询 可 受益 于 不 同 的 索引 。 


“Using temporary” 
这 意味 着 MySQL 在 对 查询 结果 排序 时 会 使 用 一 个 临时 表 。 

“Using filesort” 
这 意味 着 MySQL 会 对 结果 使 用 一 个 外 部 索引 排序 ， 而 不 是 按 索引 次 序 从 表 里 读 取 
行 。MySQL 有 两 种 文件 排序 算法 ， 你 可 以 在 第 6 章 读 到 相关 内 容 。 两 种 方式 都 可 以 
在 内 存 或 磁盘 上 完成 。EXPLAIN 不 会 告诉 你 MySQL 将 使 用 哪 一 种 文件 排序 ， 也 不 会 
告诉 你 排序 会 在 内 存 里 还 是 磁盘 上 完成 。 

“Range checked for each record (index map: N)” | 
这 个 值 意味 着 没有 好 用 的 索引 ， 新 的 索引 将 在 联接 的 每 一 行 上 重新 估算 。N 是 显示 
在 possible_keys 列 中 素 引 的 位 图 ， 并 且 是 元 余 的 。 


树 形 格式 的 输出 


MySQL 用 户 往往 更 希望 把 EXPLAIN 的 输出 格式 化 成 一 棵 树 ， 更 加 精确 地 展示 执行 计划 。 
实际 上 ，EXPLAIN 查看 查询 计划 的 方式 确实 有 点 笨拙 ， 树 状 结构 也 不 适合 表格 化 的 输出 。 
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4 Extra 列 里 有 大 量 的 值 时 ， 缺 点 更 明显 ， 使 用 UNION 也 是 这 样 。UNION 跟 MySQL 能 
做 的 其 他 类 型 的 联接 不 太一 样 ， 它 不 太 适 合 EXPLAIN, 


AOR RT EXPLAIN 的 规则 和 特性 有 充分 的 了 解 ， 使 用 树 形 结构 的 执行 计划 也 是 可 行 的 。 
但 是 这 有 点 枯燥 ， 最 好 还 是 留 给 自动 化 的 工具 处 理 。Percona Toolkit 包含 了 pt-visual- 
explain， 它 就 是 这 样 一 个 工具 。 


MySQL 5.6 中 的 改进 


MySQL 5.6 中 将 包括 一 个 对 EXPLAIN 的 重要 改进 : 能 对 类 似 UPDATE, INSERT 等 的 查询 
进行 解释 。 尽 管 可 以 将 .DML 语句 转化 为 准 等 价 的 “SELECT” 查 询 并 EXPLAIN， 但 结果 
并 不 会 完全 反映 语句 是 如 何 执 行 的 ， 因 而 这 仍然 非常 有 帮助 。 在 开发 使 用 类 似 Percona 
Toolkit 中 的 pt-upgrade 时 曾 尝试 使 用 过 那个 技术 ， 我 们 不 止 一 次 发 现 ， 在 将 查询 转化 为 
SELECT 时 ， 优 化 器 并 不 能 按 我 们 预期 的 代码 路 径 执 行 。 因 而 ，EXPLAIN 一 个 查询 而 不 需 
要 转化 为 SELECT， 对 我 们 理解 执行 过 程 中 到 底 发 生 什 么 ， 是 非常 有 帮助 的 。 


MySQL 5.6 还 将 包括 对 查询 优化 和 执行 引擎 的 一 系列 改进 ， 人 允许 匿 名 的 临时 表 尽 可 能 晚 
地 被 具体 化 ， 而 不 总 是 在 优化 和 执行 使 用 到 此 临时 表 的 部 分 查询 时 创建 并 填充 它们 。 这 
将 允许 MySQL 可 以 直接 解释 带子 查询 的 查询 语句 ， 而 不 需要 先 实际 地 执行 子 查询 。 


最 后 ，MySQL 5.6 将 通过 在 服务 器 中 增加 优化 跟踪 功能 的 方式 改进 优化 器 的 相关 部 分 。 
这 将 允许 用 户 查 看 优化 器 做 出 的 抉择 ， 以 及 输入 〈 例 如， 索引 的 基数 ) 和 抉择 的 原因 。 
这 非常 有 帮助 ， 不 仅仅 对 理解 服务 器 选择 的 执行 计划 如 此 ， 对 为 什么 选择 这 个 计划 也 如 
此 。 


MySQL 5.6 中 的 改进 | 701 








MRE T 


锁 的 调试 


任何 使 用 锁 来 控制 资源 共享 的 系统 ， 锁 的 竞争 问题 都 不 好 调试 。 当 我 们 给 某 个 表 增 加 一 
列 新 字段 ， 或 者 只 是 进行 查询 ， 就 有 可 能 发 现 其 他 请 求 锁 住 了 操作 的 表 或 者 行 。 此 时 ， 
通常 你 所 想 做 的 事 就 是 找 出 查询 阻塞 的 原因 ， 从 而 知道 该 杀 死 哪个 进程 。 这 个 附录 显示 
了 如 何 达到 这 两 个 目标 。 


MySQL 服务 器 本 身 使 用 了 几 种 类 型 的 锁 。 如 果 查 询 正 在 等 待 一 个 服务 器 级 别 的 锁 ， 那 
么 可 以 在 SHOW PROCESSLIST 的 输出 中 看 到 蛛丝马迹 。 除 了 服务 器 级 别 的 锁 ， 任 何 支 持 
行 级 别 锁 的 存储 引擎 ， 例 如 InnoDB ， 都 实现 了 自己 的 锁 。 在 MySQL 5.0 和 更 早 版 本 中 ， 
服务 器 层 无 法 主动 识别 这 些 锁 ， 它 们 往往 对 用 户 和 数据 库 管 理 员 不 可 见 。 在 MySQL 5.1 
和 后 续 版 本 中 可 见 性 有 了 提高 。 


siz PA 
服务 器 级 别 的 锁 等 待 
锁 等 待 可 能 发 生 在 服务 器 级 别 或 存储 引擎 级 别 。 El (应 用 程序 级 别 的 锁 可 能 也 是 一 个 问 
题 ， 但 我 们 在 此 只 关注 MySQL.) 下 面 是 MySQL 服务 器 使 用 的 几 种 类 型 的 锁 。 


RB 
表 可 以 被 显 式 的 读 锁 和 写 锁 进行 锁定 。 这 些 锁 有 许多 的 变种 ， 例 如 本 地 读 锁 。 你 可 
以 在 MySQL 手册 LOCK TABLES 部 分 了 解 到 这 些 变种 。 除 了 这 些 显 式 的 锁 外 ， 查 询 
过 程 中 还 有 隐 式 的 锁 。 
全 局 锁 
可 以 通过 FLUSH TABLES WITH READ LOCK 或 设置 read_ontLy=1 来 获取 单个 全 局 读 锁 。 
它 与 任何 表 锁 都 冲突 。 


注 1: 如果 需要 回忆 关于 服务 器 和 存储 引 学 之 间 的 隔离 、 请 参考 第 1 章 中 的 图 1-1。 
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命名 锁 

命名 锁 是 表 锁 的 一 种 ， 服 务 器 在 重 命名 或 删除 一 个 表 时 创建 。 

字符 锁 
你 可 以 用 GET_LOCK() 及 其 相关 函数 在 服务 器 级 别 内 锁 住 和 释放 任意 一 个 字符 串 。 


在 接 下 来 的 章节 中 我 们 将 更 详细 地 查看 每 种 类 型 的 锁 。 


Fe il 
FMR TUE RAHAT. BABA LOCK TABLES 创建 。 例 如 ， 如 果 在 
mysql 会 话 中 执行 下 列 命令 ， 将 在 sakila.film 上 获得 一 个 显 式 的 锁 。 


mysql> LOCK TABLES sakila.film READ; 

如 果 再 在 另外 一 个 会 话 中 执行 如 下 的 命令 ， 查 询 会 挂 起 并 且 不 会 完成 。 
mysql> LOCK PE sakila.film WRITE; 

你 可 以 在 第 一 个 连接 中 看 到 等 待 线程 。 


mysql> SHOW PROCESSLIST\G 
A 24 2 2K i a E 2K aK aK ok a a ik 2 2 k k k kkk k 1. row 98 2K 9 2 2k 2 a k k ok ok k ok ak k k k k 2k 2 2k 2k k k kK k 


Id: 

: baron 

: localhost 

: NULL 

Command: 
Time: 
State: 
Info: 


7 


Query 
0 


NULL 
SHOW PROCESSLIST 


六 六 米 六 六 六 六 六 六 六 玉米 六 六 六 六 六 六 炒米 玉米 米 玉米 米 米 ”2 。 rgy Poo ook a kk kkk kk kk 


Id: 
User: 
Host: 

db: 

Command: 
Time: 
State: 
Info: 


11 

baron 

localhost 

NULL 

Query 

4 

Locked | 

LOCK TABLES sakila.film WRITE 


2 rows in set (0.01 sec) 


[737 > 可 以 注意 到 线程 11 的 状态 是 Locked, Æ MySQL 服务 器 代码 中 只 有 一 个 线程 会 进入 此 
状态 : 当 一 个 线程 持 有 该 锁 后 , 其 他 线程 只 能 不 断 尝试 获取 。 因 而 , 如 果 看 到 这 样 的 信息 ， 
你 就 知道 线程 在 等 待 一 个 MySQL 服务 器 中 的 锁 ， 而 不 是 存储 引擎 的 。 


然而 ， 显 式 锁 并 不 是 阻塞 这 样 一 个 操作 的 唯一 类 型 的 锁 。 我 们 前 面 也 提 到 ， 服 务 器 在 查 
询 过 程 中 会 隐 式 地 锁 住 表 。 用 一 个 长 时 间 运 行 的 查询 可 以 很 容易 地 展示 这 一 点 ， 长 时 间 
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查询 可 以 通过 SLEEP() 函数 轻松 创建 。 
mysql> SELECT SLEEP(30) FROM sakila.film LIMIT 1; 


当 这 个 查询 运行 时 ， 如 果 你 再 次 尝试 锁 sakila.film, 操作 会 因 隐 式 锁 而 挂 起 ,就 如 同 有 ' 
显 式 锁 一 样 。 你 会 在 进程 列表 中 看 到 和 之 前 一 样 的 效果 : 


mysql> SHOW PROCESSLIST\G 
A ke ik ee ee fe he he he he k k kkk kkk k kkk 1. Yow OK a Oe 2 2 2 2h ak 2 2 k k k 2k k k k kk kkk 


Id: 7 
User: baron | 
Host: localhost 


State: Sending data 
Info: SELECT SLEEP(30) FROM sakila.film LIMIT 1 


HK A KK OK OK k OK KK k kkk k k kk k k k KK OK 2. Yow 3 2K 2 fe 2 aie 2 k 2 2c k k oe kk k kk k k kkk k k 
Id: 11 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 9 
State: Locked 
Info: LOCK TABLES sakila.film WRITE 
FEA BFA, SELECT 查询 的 隐 式 读 锁 阻 塞 了 LOCK TABLES 中 所 请 求 的 显 式 写 锁 。 另 外 ， 隐 


式 锁 也 会 相互 阻塞 。 


你 可 能 想 知 道 关 于 隐 式 锁 和 显 式 锁 的 差异 。 从 内 部 来 说 ， 它 们 有 相同 的 结构 ， 由 相同 的 
MySQL 服务 器 代码 来 控制 。 从 外 部 来 说 ， 你 可 以 通过 LOCK TABLES 和 UNLOCK TABLES 
来 控制 显 式 锁 。 


然而 , 当 涉 及 非 MyISAM 存储 引擎 时 ,它们 之 间 有 一 个 非常 重要 的 区 别 。 当 创 建 显 式 锁 时 ， 
它 会 按 你 的 指令 来 做 ， 但 隐 式 锁 就 比较 隐蔽 并 “有 魔幻 性 。 服 务 器 会 在 需要 时 自动 地 创 
建 和 释放 隐 式 锁 , 并 将 它们 传递 给 存储 引擎 。 存 储 引 警 感知 到 后 , 可 能 会 “转换 EEA. 
例如 ，InnoDB 有 这 样 的 相关 规则 : 对 一 个 给 定 的 服务 器 级 别 的 表 锁 ，InnoDB 应 该 为 其 
创建 特定 类 型 的 InnoDB 表 锁 。 这 也 使 得 操作 人 很 难 理解 InnoDB 幕后 到 底 做 了 什么 。 


找 出 谁 持 有 锁 

如 果 你 看 到 许多 的 进程 处 于 Locked 状态 ， 问 题 可 能 出 在 对 MyISAM 或 者 其 他 类 似 存储 
引擎 的 高 并 发 访问 。 这 会 阻止 你 执行 人 工 操作 ， 例 如 给 表 增 加 索引 等 。 如 果 一 个 UPDATE 
查询 进入 队列 并 等 待 MyISAM 的 表 锁 ， 此 时 就 连 SELECT 也 不 会 被 允许 运行 。( 关 于 
MySQL 锁 队 列 和 优先 级 ， 可 以 在 MySQL 用 户 手册 中 查 到 更 多 。) 
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在 某 些 场景 下 ， 可 以 清楚 地 看 到 几 个 连接 长 时 间 持 有 某 个 锁 ， 此 时 需要 将 它们 杀 死 〈 或 
需要 劝告 用 户 不 要 阻挡 这 些 连 接 的 工作 ! )。 但 是 如 何 找 出 那个 连接 呢 ? 


目前 没有 SQL 命令 可 以 显示 哪个 线程 持 有 阻塞 你 的 查询 的 表 锁 。 如 果 运 行 SHOW 
PROCESSLIST， 你 会 看 到 等 待 锁 的 进程 ， 而 不 是 哪个 进程 持 有 这 些 锁 。 洗 和 运 的 是 ， 有 一 个 
debug 命令 可 以 打印 关于 锁 的 信息 到 服务 器 的 错误 日 志 中 ， 你 可 以 使 用 mysqladmin 工具 
来 运行 这 个 命令 : 


$ mysqladmin debug 


在 错误 日 志 的 输出 中 包括 了 许多 的 调试 信息 ， 在 接近 尾部 可 以 看 到 像 下 面 的 一 些 信息 。 
我 们 是 这 样 创 建 这 些 输出 的 : 在 一 个 连接 中 锁 住 表 ， 然 后 在 另外 一 个 连接 中 尝试 再 次 对 
它 加 锁 。 

Thread database.table name Locked/Waiting Lock type 


7 sakila.film Locked - read Read lock without concurrent inserts 
8 sakila.film Waiting - write Highest priority write lock 


可 以 看 到 线程 8 正在 等 待 线程 7 持 有 的 锁 。 


全 局 读 锁 

MySQL 服务 器 还 实现 了 一 个 全 局 读 锁 ， 可 以 如 下 获取 该 锁 。 
mysql> FLUSH TABLES WITH READ LOCK; 

如 果 此 时 在 另外 一 个 会 话 中 尝试 再 锁 这 个 表 ， 结 果 会 像 之 前 一 样 挂 起 。 
mysql> LOCK TABLES sakila.film WRITE; 


如 何 判断 这 个 查询 正在 等 待 全 局 读 锁 而 不 是 一 个 表 级 别 的 锁 ? 请 看 SHOW PROCESSLIST 的 
输出 。 


mysql> SHOW PROCESSLIST\G 


AR ARR ook KAKA KAR AKA ARK 2 roy EEk kkk kk kkk kkk a CK 
Id: 22 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 9 
State: Waiting for release of readlock 
Info: LOCK TABLES sakila.film WRITE 
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注意， 查询 的 状态 是 Waiting for release of readlock。 这 就 是 说 查询 正在 等 待 一 个 
全 局 读 锁 而 不 是 表 级 别 锁 。 | 


MySQL 没有 提供 查 出 谁 持 有 全 局 读 锁 的 方法 。 


命名 锁 


命名 锁 是 一 种 表 锁 : 服务 器 在 重 命名 或 删除 一 个 表 时 创建 。 命 名 锁 与 普通 的 表 锁 相 冲 突 ， 
无 论 是 隐 式 的 还 是 显 式 的 。 例 如 ， 如 果 和 之 前 一 样 使 用 LOCK TABLES， 然 后 在 另外 一 个 
会 话 中 尝试 对 此 表 重 命名 ， 查 询 会 挂 起 ， 但 这 次 不 是 处 于 Locked KA. 


. mysql> RENAME TABLE sakila.film2 TO sakila.film; 
和 前 面 一 样 ， 从 进程 列表 找到 获得 锁 的 进程 ， 其 状态 是 Waiting for table. 


mysql> SHOW PROCESSLIST\G 


FER A ACR AC IK HK KEK AR AC RK ARK ”2 。 了 OW EA a a aK ao kkk kkk a A OK kkk kk KK OK 
Id: 27 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 3 
State: Waiting for table 
Info: rename table sakila.film to sakila.film 2 


也 可 以 在 SHOW OPEN TABLES 输出 中 看 到 命名 锁 的 影响 。 


mysql> SHOW OPEN TABLES; 
+ 


---------- +-----------+--------+-------------+ 
| Database | Table | In_use | Name_locked | 
+---------- +----------- +-------- +------------- + 
| sakila | film text | 3 | 0 | 
| sakila | film | 2 | 1 | 
| sakila | film2 | 1 | 1 | 
+---------- +----------- +-------- +------------- + 


3 rows in set (0.00 sec) 


注意 ,两 个 名 字 (原名 和 新 名 ) 都 被 锁 住 了 。sakita.fitm_text Al sakila. film 上 有 个 指 
向 它 的 触发 器 而 被 锁 ， 这 也 解释 了 另外 一 种 锁 方式 ， 它 们 可 以 暗地里 将 自己 放置 到 预期 
之 外 的 地 方 。 查 询 sakila. film, 触发 器 会 使 你 悄悄 地 接触 sakita.fitm_text, 因而 隐 式 
地 锁 住 它 。 触 发 器 实际 不 需要 因 重 命名 触发 ， 确 实 如 此 ， 因 此 从 技术 上 讲 并 不 需要 锁 ， 
但 事实 是 : MySQL 的 锁 有 时 可 能 并 不 具有 你 所 期 望 的 细 粒 度 。 
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MySQL 并 没有 提供 任何 一 种 方法 来 查 明 谁 拥有 命名 锁 ， 但 这 通常 并 不 是 问题 ， 因 为 它 
们 一 般 持 有 非常 短 的 一 段 时 间 。 当 有 冲突 时 ,一般 是 由 于 命名 锁 在 等 待 一 个 普通 的 表 锁 ， 
而 这 通过 先前 展示 的 mysqladmin debug 可 以 看 到 。 


HA 
在 服务 器 中 实现 的 最 后 一 种 锁 是 用 户 锁 ， 它 基本 是 一 个 命名 互 斥 量 。 你 需要 指定 锁 的 名 
称 字符 电 ， 以 及 等 待 超时 秒 数 。 


ee SELECT GET_LOCK('my oor » 100); 


Oe en De em em en man en en en on ep 


1 row in set (0.00 sec) 


指令 成 功 返回 ， 这 个 线程 就 在 命名 互 斥 量 上 持 有 了 一 把 锁 。 如 果 另 外 一 个 线程 此 时 尝试 
锁 相同 的 字符 串 ， 它 将 会 挂 起 直到 超时 。 这 次 进程 列表 显示 了 一 个 不 同 的 进程 状态 。 


mysql>, SHOW PROCESSLIST\G 
EEA GOCE 人 rgy oook kkk 


Id: 22 
User: baron 
Host: localhost 
à db: NULL 
Command: Query 
Time: 9 
State: User lock 
Info: SELECT GET_LOCK('my lock', 100) 


User Lock 状态 是 这 种 类 型 的 锁 独 有 的 。MySQL 没有 提供 查 明 谁 拥有 用 户 锁 的 方法 。 


InnoDB RY Hiss FF 


服务 器 级 的 锁 要 比 存储 引擎 中 的 锁 容 易 调 试 得 多 。 各 个 存储 引擎 的 锁 互 不 相同 ， 并 且 存 
储 引 擎 可 能 不 提供 任何 方法 来 查看 内 部 的 锁 。 本 附录 主要 关注 InnoDB. 


InnoDB 在 SHOW INNODB STATUS 的 输出 中 显露 了 一 些 锁 信 息 。 如 果 事 务 正在 等 待 某 个 锁 ， 
这 个 锁 会 显示 在 SHOW INNODB STATUS 输出 的 TRANSACTIONS 部 分 中 。 例 如 ， 如 果 在 一 个 
会 话 中 执行 下 面 的 命令 ， 将 需要 表 中 第 一 行 的 写 锁 。 

mysql> SET AUTOCOMMIT=0; 


mysql> BEGIN; | 
mysql> SELECT film_id FROM sakila.film LIMIT 1 FOR UPDATE; 
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如 果 在 另外 一 个 会 话 中 运行 相同 的 命令 ， 查 询 将 会 因 第 一 个 会 话 中 在 那 一 行 获取 的 锁 而 
阻塞 。 可 以 在 SHOW INNODB STATUS 中 看 到 影响 (为 了 简洁 起 见 我 们 对 结果 有 所 删 减 )。 


LOCK WAIT 2 lock struct(s), heap size 1216 

MySQL thread id 8, query id 89 localhost baron Sending data 

SELECT film id FROM sakila.film LIMIT 1 FOR UPDATE 

a a TRX HAS BEEN WAITING 9 SEC FOR THIS LOCK TO BE GRANTED: 

5 RECORD LOCKS space id O page no 194 n bits 1072 index ‘idx fk language id™ of table 
“sakila/film trx id 0 61714 lock mode X waiting 


w Npe 


最 后 一 行 显示 查询 在 等 待 该 表 的 idx_ fk language id 索引 的 194 页 上 一 个 排他 锁 (Lock 
mode X) 。 最 终 ， 锁 等 待 超 时 ， 查 询 返 回 一 个 错误 。 


ERROR 1205 (HY000): Lock wait timeout exceeded; try restarting transaction 


不 六 的 是 , ,由 于 看 不 到 谁 拥有 锁 ， 因 此 很 难 确定 哪个 事务 导致 这 个 问题 。 不 过 往往 可 以 
通过 查看 哪个 事务 打开 了 非常 长 的 一 段 时 间 来 有 根据 地 猜测 ; 还 有 另外 一 种 方法 ， 可 以 
激活 InnoDB 锁 监 控 器 , 它 最 多 可 以 显示 每 个 事务 中 拥有 的 10 把 锁 。 为 了 激活 该 监控 器 ， 
需要 在 InnoDB 存储 引擎 中 创建 一 个 特殊 名 字 的 表 。? 


mysql> CREATE TABLE innodb lock monitor(a int) ENGINE=INNODB; 


发 起 这 个 查询 后 ，InnoDB 开始 定时 地 (这 个 间隔 时 间 可 以 变化 ， 但 通常 是 每 分 钟 几 次 ) 
打印 SHOW INNODB STATUS 的 一 个 略微 加 强 的 版 本 的 输出 到 标准 输出 中 。 在 大 多 数 系 统 中 ， 
这 个 输出 被 重 定 向 到 服务 器 的 错误 日 志 中 , 你 可 以 检查 它 以 查看 哪个 事务 应 该 拥有 那 把 
锁 。 若 想 停 掉 锁 监控 器 ， 删 除 这 个 表 即 可 。 


下 面 是 锁 监 控 器 输出 的 相关 例子 。 


1 ---TRANSACTION 0 61717, ACTIVE 3 sec, process no 5102, OS thread id 1141152080 

2 3 lock struct(s), heap size 1216 

3 MySQL thread id 11, query id 108 localhost baron 

4 show innodb status 

5 TABLE LOCK table ‘sakila/film trx id 0 61717 lock mode IX 

6 RECORD LOCKS space id O page no 194 n bits 1072 index “idx _fk_language id of tabli 
“sakila/film trx id 0 61717 lock mode X l 

7 Record lock, heap no 2 PHYSICAL RECORD: n_fields 2; compact format; info bits 0 

8 ... omitted ... 

9 

0 


RECORD LOCKS space id 0 page no 231 n bits 168 index “PRIMARY of table ~sakila/fi. 
trx id 0 61717 lock_mode X locks rec but not. gap 


11 Record lock, heap no 2 PHYSICAL RECORD: n fields 15; compact format; info bits 0 
12 +... omitted ... 


请 注意 ， 第 ,3 行 显示 的 MySQL 线程 ID ， 跟 进程 列表 里 ID 列 的 值 是 一 样 的 。 第 5 行 显 “75 


注 2: ”InnoDB 把 几 个 “神奇 的 ” 表 名 作为 操作 指令 来 用 。 当 前 采用 的 是 动态 可 设置 的 服务 器 变量 ， 但 是 ， 
InnoDB 的 方法 已 经 使 用 了 很 长 一 段 时 间 ， 所 以 仍然 留 有 原先 的 行为 方式 。 
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示 了 该 事务 在 表 里 有 一 个 显 式 的 独占 表 锁 (IX)。 第 6 ~ 8 行 显 示 了 索引 里 的 锁 。 我 们 
删除 了 第 8 行 的 信息 ， 是 因为 它 导 出 了 这 个 锁定 的 记录 ， 显 得 非常 系 著 。 第 9 ~- 11 行 显 
示 了 主键 上 相应 的 锁 (FOR UPDATE 锁 必须 锁 住 整 行 ， 而 不 仅仅 是 索引 )。 


当 锁 监控 器 被 激活 的 时 候 ，SHOW INNODB STATUS 里 也 会 有 额外 的 信息 ， 因 此 ， 实 际 上 无 
须 检 查 服务 器 的 错误 日 志 ， 就 可 以 查看 锁 信 息 。 


出 于 种 种 原因 ， 锁 监控 器 并 不 是 最 理想 的 。 它 的 主要 问题 是 锁 信 息 非 常 元 长 ， 因 为 导出 
了 被 锁定 记录 的 十 六 进 制 格 式 和 ASCII 格式 。 它 会 填 满 错 误 日 志 ， 并 且 还 会 很 轻易 地 溢 
出 固定 长 度 的 SHOW INNODB STATUS 输出 结果 。 这 意味 着 你 可 能 无 法 查看 到 在 那 一 段 之 后 
的 其 他 输出 信息 。InnoDB 对 每 个 事务 打印 锁 的 数量 有 硬 编码 限制 ， 即 每 个 事务 只 能 打 
印 出 10 个 持 有 的 锁 ， 超 过 10 个 就 无 法 输出 ， 这 意味 着 你 可 能 看 不 到 需要 的 锁 信 息 。 这 
还 不 算 完 ,即使 要 找 的 东西 确实 在 里 面 ,也 难以 把 它 从 所 有 锁 的 输出 信息 里 定位 出 来 。( 只 
需 在 一 个 繁忙 的 系统 上 试 一 下 ， 你 就 会 体会 到 这 一 点 。) 


有 两 样 东西 能 够 使 锁 的 输出 信息 更 加 有 用 。 第 一 样 是 本 书 作 者 之 一 为 InnoDB 和 MySQL 
服务 器 编写 的 一 个 补丁 ， 包 含 在 Percona Server 和 MariaDB 中 。 这 个 补丁 会 移 除 输 出 结 
果 里 那些 元 长 的 记录 导出 信息 ， 默 认 会 把 锁 信 息 包 含 到 SHOW INNODB STATUS 的 输出 中 
(因而 锁 监 控 器 就 无 须 激活 了 ) ， 还 会 增加 动态 可 设置 服务 器 变量 来 控制 元 长 的 输出 信息 ， 
以 及 每 个 事务 能 打印 出 的 锁 信 息 的 个 数 。 


第 二 个 可 选用 的 方法 是 使 用 innotop 来 解析 和 格式 化 输出 结果 。 它 的 Lock 模式 能 够 显示 
锁 信息 ， 并 通过 连接 和 表 优美 地 聚合 在 一 起 ， 因 而 能 很 快 地 看 出 哪 一 个 事务 持 有 指定 表 
的 锁 。 但 是 ， 这 也 并 非 是 万 无 一 失 的 方法 ， 因 为 它 是 通过 检查 所 有 被 锁定 记录 的 导出 信 
息 来 精确 地 找 出 那个 被 锁定 记录 。 无 论 怎样 ， 这 还 是 要 比 常用 的 方法 好 很 多 ， 对 于 大 多 
数 用 途 都 足够 好 了 。 


使 用 INFORMATION. SCHEMA 表 


使 用 SHOW INNODB STATUS 来 查看 锁 绝 对 是 老 派 做 法 ， 现 在 InnoDB 有 INFORMATION_ 
SCHEMA 来 显露 它 的 事务 和 锁 。 


如 果 你 看 不 到 这 个 表 ， 说 明 你 使 用 的 InnoDB 版 本 还 不 够 新 。 至 少 需要 MySQL 5.1 和 
InnoDB 插件 。 如 果 你 正在 使 用 MySQL 5.1, 但 没有 看 到 INNODB LOCKS #, 请 用 SHOW 
VARIABLES 检查 innodb_version 变量 。 如 果 没 有 看 到 这 个 变量 ,说 明 你 还 没有 使 用 
InnoDB 插件 ， 你 需要 它 ! 如 果 看 到 了 这 个 变量 但 没有 那些 表 ， 那 么 你 需要 确保 服务 器 
配置 文件 的 plugin load 设置 中 明确 包括 了 那些 表 。 详 情 请 查阅 MySQL 用 户 手 册 。 
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幸运 的 是 , MySQL 5.5 中 不 需要 担心 这 些 , InnoDB 的 高 级 版 本 已 经 将 它 编 译 到 服务 器 中 。 


对 这 些 表 可 使 用 的 查询 ，MySQL 和 InnoDB 手册 都 有 样 例 ， 在 此 不 再 重复 ， 但 我 们 要 增 
加 两 个 自己 的 例子 。 例 如 ， 下 面 是 一 个 显示 谁 阻塞 和 谁 在 等 待 ， 以 及 等 待 多 久 的 查询 。 


SELECT r.trx_id AS waiting trx_id, r.trx mysql thread id AS waiting thread， 
TIMESTAMPDIFF(SECOND, r.trx_wait_started, CURRENT TIMESTAMP) AS wait_time, 
r.trx_query AS waiting query, 
1.lock_ table AS waiting table_lock, 
b.trx_id AS blocking trx_id, b.trx_mysql_thread_id AS blocking thread, 

-SUBSTRING(p.host, 1, INSTR(p.host, ':') - 1) AS blocking host, 
SUBSTRING(p.host, INSTR(p.host, ':') +1) AS blocking port, 


IF(p.command = 


"Sleep", p.time, 0) AS idle in trx, 


b.trx_query AS blocking query 
FROM INFORMATION SCHEMA.INNODB LOCK WAITS AS w 
INNER JOIN INFORMATION SCHEMA.INNODB TRX AS b ON b.trx_id = w.blocking trx_id 
INNER JOIN INFORMATION | SCHEMA. INNODB _TRX AS r ON r.trx_id = w.requesting_trx_id 
INNER JOIN INFORMATION SCHEMA. INNODB_ LOCKS AS 1 ON w.requested_lock_id = 1.lock_id 
LEFT JOIN INFORMATION SCHEMA. PROCESSLIST AS p ON p.id = b.trx_mysql thread id 


ORDER BY wait_time DESC\G 
FOS EO AAA kk 。 roy a beep daa RCA A A A 


waiting trx_id: 
waiting thread: 
wait_time: 
waiting query: 
waiting table lock: 
blocking trx id: 
blocking _ thread: 
blocking host: 
blocking port: 
idle in trx: 
blocking query: 


5D03 

3 

6 

select * from store limit 1 for update 
*sakila’ .° store’ 
5D02 

2 

localhost 

40298 

8 

NULL 


结果 显示 线程 3 已 经 等 待 store 表 中 的 锁 达 6s。 它 在 线程 2 上 被 阻塞 ， 而 该 线程 已 经 空 


Al T 8s, 


如 果 你 因为 线程 在 一 个 事务 中 空 闪 而 正在 遭受 大 量 的 锁 操 作 ， 下 面 的 这 个 变种 查询 可 以 
告诉 你 有 多 少 查 询 被 哪些 线程 阻塞 ， 而 没有 多 余 的 无 用 信息 。 


SELECT CONCAT( thread ', b.trx_mysql_thread_id, ' from ', p.host) AS who_blocks, 
IF(p.command = "Sleep" , p-time, 0) AS idle in trx, 
MAX(TIMESTAMPDIFF(SECOND, r. trx wait started, NOW())) AS max wait time, 
COUNT(*) AS num waiters 

FROM INFORMATION SCHEMA. INNODB_LOCK_WAITS AS w 


INNER JOIN INFORMATION. SCHEMA. INNODB_TRX AS b ON b.trx_id 


w.eblocking trx_id 


INNER JOIN INFORMATION SCHEMA.INNODB_TRX AS r ON r.trx_id = w.requesting trx_id 


LEFT JOIN INFORMATION SCHEMA.PROCESSLIST AS p ON p.id 


b.trx mysql thread id 


GROUP BY who blocks ORDER BY num waiters DESC\G 
HAKKAR AK KKK k k kkk kkk 个。 了 OW ookke kkk kkk kk 
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who blocks: thread 2 from localhost:40298 
idle in trx: 1016 
max_wait_time: 37 
num_waiters: 8 
结果 显示 线程 2 已 经 空间 了 更 长 的 一 段 时 间 ， 并 且 至 少 有 一 个 线程 已 经 等 待 它 释 放 它 的 
BRIA 37s。 有 8 个 线程 在 等 待 线程 2 完成 它 的 工作 并 提交 。 


我 们 发 现 idle-in-transaction 锁 操作 是 常见 锁 故 障 的 一 种 起 因 ， 并 且 有 时 候 很 难 诊断 。 
Percona Toolkit 中 的 pt-kill 可 以 配置 用 来 杀 死 长 时 间 运 行 的 空闲 事务 以 阻止 这 个 场景 。 
Percona Server 本 身 也 支持 一 个 空闲 事务 超时 参数 来 完成 相同 的 事情 。 
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附录 F 
在 MySQL 上 使 用 Sphinx 


Sphinx (http://www.sphinxsearch.com) 是 一 个 免费 、 开 源 的 全 文 搜索 引擎 ， 设 计 着 眼 于 
与 数据 库 完美 结合 。 它 有 类 似 DBMS 的 特性 ， 查 询 速 度 非常 快 ， 支 持 分 布 式 检索 ， 并 且 
可 扩展 性 好 。 它 可 以 高 效 利用 内 存 和 磁盘 IO， 缓 解 大 型 操作 在 这 部 分 的 瓶 宽 ， 这 非常 
重要 。 | 


Sphinx Æ MySQL 上 工作 得 很 好 。 它 可 以 被 用 来 加 速 各 种 各 样 的 查询 ， 包 括 全 文 搜索 。 
也 可 以 用 来 在 其 他 应 用 中 执行 快速 的 分 组 和 排序 操作 。 它 遵从 MySQL 的 通信 协议 ， 以 
及 主要 的 MySQL 的 SQL EA, MAP RRR MySQL 一 样 进行 查询 。Sphinx 对 茶 
些 特定 的 查询 非常 有 用 : MySQL 的 通用 架构 对 真实 世界 中 的 大 型 数据 库 优化 得 并 不 好 。 
简 而 言 之 ，Sphinx 可 以 加 强 MySQL 的 功能 和 性 能 。 


Sphinx 索引 的 源 数 据 通常 就 是 MySQL SELECT 查询 的 结果 ， 但 是 ， 也 可 以 用 不 同类 型 的 
无 限 的 数据 来 源 来 建立 索引 ， 每 一 个 Sphinx 示例 都 能 搜索 到 无 限 的 索引 。 举 例 来 说 ， 你 
可 以 从 位 于 一 台 远 程 服务 器 上 的 MySQL 实例 拉 几 份 文档 放 入 索引 里 ， 从 位 于 田 一 台 远 
程 服务 器 上 的 PostgreSQL 实例 拉 几 份 文档 过 来 ， 再 加 上 几 份 本 地 的 脚本 通过 XML 管道 
机 制 输 出 的 文档 。 


在 本 附录 里 ， 我 们 将 列举 一 些 能 让 nin 出 性 能 增强 的 使 用 和 案例， 然后 讲述 一 
装 和 配置 Sphinx 所 需 的 主要 步骤 ， 接 着 详细 说 明 它 的 功能 特点 ， 最 后 讨论 Pa 
用 的 例子 。 
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一 个 典型 的 Sphinx 搜索 


我 们 用 一 个 简单 但 是 完整 的 Sphinx 应 用 例子 作为 进一步 讨论 的 起 点 。 虽 然 Sphinx 的 
API 可 用 于 多 种 编程 语言 ， 但 是 ， 在 这 里 我 们 使 用 的 是 PHP， 因 为 它 比 较 普 及 。 


假设 我 们 要 实现 的 是 一 个 用 于 比较 购物 引擎 里 的 全 文 搜索 ， 其 具体 需求 如 下 。 


© 对 MySQL 中 的 一 个 产品 表 维 护 一 个 可 搜索 的 全 文 索 引 。 

e。 允许 对 产品 的 名 称 和 描述 进行 全 文 搜索 。 

e。 如 有 和 需要， 能 够 用 指定 的 分 类 缩小 搜索 范围 。 

e 不 仅 可 以 按 关联 度 对 搜索 结果 进行 排序 ， 也 可 以 用 物品 的 价格 或 提交 日 期 来 排序 。 
我 们 先 在 Sphinx 配置 文件 里 设置 好 数据 产 和 索引 。 


Source products 


type = mysql 

sql_host = localhost 
sql_user = shopping | 
sql_pass = mysecretpassword 
sql db = Shopping 


sql query = SELECT id, title, description, \ 
cat_id, price, UNIX_TIMESTAMP(added date) AS added ts \ 
FROM products 


sql_attr_uint _ = cat_id 
sql_attr_float = price 
sql_attr_timestamp = added ts 

} 

index products 
source = products 
path = /usr/local/sphinx/var/data/products 
docinfo = extern 


} 


这 个 例子 假设 MySQL 的 shopping 数据 库 中 包含 了 products 表 ， 而 此 表 中 有 供 我 们 执 
47 SELECT 查询 生成 我 们 的 Sphinx 索引 的 列 。 该 Sphinx 索引 也 命名 为 products。 在 创 
建新 数据 源 和 索引 后 ， 我 们 运行 indexer 程序 来 创建 最 初 的 全 文 索引 数据 文件 ， 然 后 启 
动 (或 重启 ) searchd 后 台 进 程 以 同步 这 些 变更 。 

$ cd /usr/local/sphinx/bin 

$ ./indexer products 


$ ./searchd --stop 
$ ./searchd 


索引 现在 已 经 就 绪 可 以 用 于 查询 了 。 我 们 用 Sphinx 捆绑 的 test php 样 例 脚本 来 测试 它 。 
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$ php -q test.php -i products ipod 


Query ‘ipod ' retrieved 3 of 3 matches in 0.010 sec. 
Query stats: . 

‘ipod’ found 3 times in 3 documents 
Matches: 
1. doc_id=123, weight=100, cat_id=100, price=159.99, added_ts=2008-01-03 22:38:26 
2. doc_id=124, weight=100, cat_id=100, price=199.99, added _ts=2008-01-03 22:38:26 
3. doc_id=125, weight=100, cat_id=100, price=249.99, added_ts=2008-01-03 22:38:26 


最 后 一 步 是 将 搜索 功能 加 到 我 们 的 网 络 应 用 中 。 我 们 需要 基于 用 户 输入 设置 排序 和 过 渡 
选项 ， 并 让 输出 格式 漂亮 些 。 同 时 ， 因 为 Sphinx 返回 给 客户 端的 只 有 文档 的 ID 和 配置 
属性 一 一 它 没 有 存储 任何 原始 文本 数据 一 一 所 以 ， 我 们 还 要 从 MySQL 里 读 取 对 应 的 行 
数据 。 | 


<?php 

include ( "sphinxapi.php" ); 

// ,.. other includes, MySQL connection code, 

// displaying page header and search form, etc. all go here 


// set query options based on end-user input 

$cl = new SphinxClient (); 

$sortby = $ REQUEST["sortby"]; 

9 if ( !in_array ( $sortby, array ( "price", "added ts" ) ) ) 
10 $sortby = "price"; 

11 if ( $ REQUEST["sortorder"]=="asc" ) 

12 $cl->SetSortMode ( SPH SORT_ATTR_ASC, $sortby ); 
13 else 

14 $cl->SetSortMode ( SPH SORT_ATTR_DESC, $sortby ); 
15 offset = ($ REQUEST["page"]-1)*$rows per page; 

16 $cl->SetLimits ( $offset, $rows per page ); 


CON DM PWN FP 


18 // issue the query, get the results 
19 $res = $cl->Query ( $ REQUEST["query"], "products" ); 


21 // handle search errors 
22 if ( !$res ) 


23 

24 print "<b>Search error:</b>" . $cl->GetLastError (); 
25 die; 

26 } 

27 


28 // fetch additional columns from MySQL 
29 $ids = join ( ",", array_keys ( $res["matches"] ); 
30 $r = mysql query ( "SELECT id, title FROM products WHERE id IN ($ids)" ) 


31 or die ( "MySQL error: " . mysql _error() ); 
32 while ( $row = mysql_fetch_assoc($r) ) 

33 { 

34 $id = $row["id"]; 

35 gres["matches"][$id]["sql"] = $row; 

36 

37 


38 // display the results in the order returned from Sphinx 
39 $n = 1 + $offset; 
40 foreach ( $res["matches"] as $id=>$match ) 
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41 { 


42 printf ( "%d. <a href=details.php?id=%d>%s</a>, USD %.2f<br>\n", 
43 $n++, $id, $match["sql"]["title"], $match["attrs"]["price"] ); 
44 } 

45 

46 ?> 


尽管 上 面 显示 的 这 段 代 码 看 上 去 相当 人 简单， 但 还 是 有 些 东 西 值 得 强调 一 下 。 


。 SetLimits() 调用 会 告诉 Sphinx 只 获取 客户 端 要 在 页 面 上 显示 的 行 数 。 做 这 样 的 限 
定 在 Sphinx 中 很 方便 〈 不 同 于 MySQL 内 建 的 搜索 功能 ) ， 不 加 限定 的 结果 数目 也 
可 以 通过 $result['total_found'] 来 获得 ， 而 不 需要 任何 额外 开销 。 | 

。 因为 Sphinx 只 索引 title 列 ， 并 没有 存储 它 ， 因 而 必须 从 MySQL 里 读 取 数据 。 

。 我 们 使 用 一 条 单独 的 合成 查询 获取 数据 ， 把 所 有 文档 都 放 在 WHERE id IN (...) 子 
名 中， 而 不 是 每 个 文档 运行 一 次 查询 (这 会 非常 低 效 )。 


©. 我们 将 从 MySQL 里 获取 到 的 行 和 注入 到 全 文 搜索 的 结果 集 里 ， 以 保持 原始 的 排列 顺 


序 。 在 下 文 里 我 们 会 对 此 做 一 些 解释 。 
ə 我 们 使 用 来 自 Sphinx 和 MySQL 的 数据 来 显示 每 一 行 。 


那些 由 PHP 写 的 行 注 入 代码 需要 再 做 一 些 解释 。 我 们 不 能 简单 地 对 MySQL 查询 的 结果 
集 做 遍历 ， 因 为 行 的 次 序 跟 WHERE id IN (..,) 子 句 里 指定 的 (多数 情 况 下 ) 不 一 样 。 
但 是 ，PHP 会 对 结果 进行 哈 希 (使 用 关联 数组 )， 保 持 匹 配 结果 插入 时 的 排列 顺序 ， 这 
样 Sphinx 就 可 以 通过 $result["matches"] 返回 排序 正确 的 行 了 。 因 此 ,为 了 从 Sphinx 
返回 的 匹配 结果 能 保持 正确 的 次 序 (而 不 是 MySQL 生成 的 那 种 半 随 机 的 次 序 ) ， 我 们 需 
要 把 MySQL 的 查询 结果 一 个 接 一 个 地 注入 到 PHP 用 来 存储 Sphinx 匹配 结果 集 的 哈 希 中 。 


对 于 计数 匹配 和 应 用 LIMIT 子 句 ，MySQL 和 Sphinx 在 实现 方式 及 性 能 上 存在 着 比较 大 
的 区 别 。 首 先 ，LIMIT 在 Sphinx 里 开销 是 比较 低 的 。 设 想 有 一 个 LIMIT 500,10 的 子 句 ， 
MySQL 会 半 随 机 地 读 出 510 行 数 据 (这 是 比较 慢 的 )， 然 后 丢弃 掉 其 中 的 50047, m 
Sphinx 会 返回 一 组 ID ， 你 可 以 用 这 些 ID 从 MySQL 上 读 取 到 实际 所 需 的 数据 行 。 其 次 ， 
Sphinx 总 是 返回 指定 的 行 数 或 者 它 在 结果 集 里 找到 的 实际 匹配 数目 ， 而 与 LIMIT 子 句 是 
怎么 样 的 无 关 。 MySQL 无 法 做 到 这 么 高 效 ， 尽 管 在 MySQL 5.6 中 对 这 个 限制 有 部 分 的 
优化 。 


为 什么 要 使 用 Sphinx 


Sphinx 可 以 在 多 个 方面 完善 基于 MySQL 的 应 用 程序 ， 能 补充 MySQL 的 性 能 不 足 ， 还 
提供 了 MySQL 所 没有 的 功能 。 典 型 的 使 用 场景 如 下 。 
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。 快速、 高 效 、 可 扩展 和 核心 的 全 文 搜 索 。 

。 能 在 使 用 低 选 择 性 索引 或 无 索引 的 列 时 优化 WHERE 条 件 。 
o 优化 ORDER BY ... LIMIT NN 查询 以 及 GROUP BY 查询 。 

© 并 行 地 产生 结果 集 。 

。 向 上 扩展 和 向 外 扩展 。 

© 聚合 分 片 数据 。 


我 们 在 下 面 这 些小 市 里 对 这 些 场景 逐一 进行 探讨 。 然 而 ， 这 个 列表 也 不 是 完整 的 ， 
Sphinx 的 用 户 时 不 时 还 会 发 现 新 的 应 用 方法 。 例 如 ，Sphinx 最 重要 用 途 之 一 一 一 快速 扫 
” 朱 和 过 站 记录 一 一 就 是 由 一 位 用 户 创 造 出 来 的 ， 并 不 是 Sphinx 最 初 的 设计 目标 之 一 。 


高 效 、 可 扩展 的 全 文 搜索 
MyISAM 的 全 文 搜索 能 力 对 小 数据 集 非 常 快 ， 但 随 着 数据 量 增长 ， 性 能 会 非常 低 。 对 
百 万 级 别 的 记录 量 和 上 GB 的 索引 文本 ， 查 询 时 间 会 在 1 秒 到 超过 10 分 钟 之 间 变 化 ， 而 
这 对 于 高 性 能 的 网 站 应 用 来 说 是 不 可 接受 的 。 尽 管 通过 将 数据 分 布 到 多 个 地 方 可 能 会 扩 
展 MyISAM 的 全 文 搜 索 ， 但 这 需要 并 行 地 运行 查询 并 在 应 用 程序 中 将 结果 合并 ， 大 大 增 
加 了 中 间 层 的 复杂 度 。 


Sphinx 运作 速度 要 明显 快 于 MyISAM 内 建 的 全 文 索引 。 比 如 说 ， 它 查询 超过 1GB 的 文 
本 数据 需要 10~100ms 一 一 最 多 可 以 扩展 到 每 个 CPU 处 理 10~100GB 的 数据 。Sphinx 还 
有 如 下 优点 。 


© 它 能 对 InnoDB 及 其 他 存储 引 敬 里 存储 的 数据 进行 索引 ， 而 不 仅仅 是 MyISAM。 

° ‘ERE 

。 它 能 将 来 自 多 个 索引 的 搜索 结果 进行 动态 整合 。 

e。 除了 能 对 文本 列 索 引 外 , 它 的 索引 还 可 以 包含 无 限 数 量 的 数字 属性 一 一 跟 “ 额 外 字段 ” 
一 样 。Sphinx 的 属性 可 以 是 整 型 、 浮 点 型 和 UNIX 时 间 惟 。 

© 它 能 根据 属性 上 的 附加 条 件 对 全 文 搜 索 进行 优化 。 

。 它 的 基于 短语 的 排列 算法 能 帮助 它 返 回 更 多 相关 的 结果 。 例 如 ， 如 果 你 在 一 个 歌词 
表 中 搜索 “我 爱 你 ， 亲 爱 的 "， 那 么 恰好 包含 该 短语 的 歌曲 将 在 最 上 面 返 回 ， 之 后 才 
是 那些 只 包含 多 次 “ 爱 ” 或 “亲爱 的 ”的 歌曲 。 

e 它 使 得 向 外 扩展 更 容易 。 


高 效 使 用 WHERE FA 


有 时 你 需要 对 很 大 的 表 (ALAA Rica) 做 SELECT 查询 ， 同 时 ， 几 个 WHERE 条件 里 
有 索引 选择 性 非常 差 (例如 指定 WHERE 条 件 返 回 太 多 行 ) 或 者 根本 没有 索引 支持 的 字段 。 
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常见 的 例子 有 : 在 一 个 社交 网 站 上 搜索 用 户 ， 以 及 在 一 个 拍卖 网 站 上 搜索 物品 。 典 型 的 
搜索 接口 是 让 用 户 能 在 WHERE 条 件 加 10 个 或 更 多 的 列 ,而 返回 结果 又 是 按 其 他 列 来 排序 。 
第 5 章 中 索引 案例 研究 的 例子 ， 就 是 这 样 的 一 个 应 用 ， 并 且 需 要 索引 策略 。 


当 有 合适 的 数据 结构 和 查询 优化 时 ， 只 要 WHERE 子 句 不 包含 太 多 的 列 ， 尚 可 以 接受 用 
MySQL 来 应 付 这 些 查 询 。 但 是 ， 随 着 列 的 数目 增加 ， 支 持 所 有 可 能 搜索 所 需 的 索引 数 
会 呈 指 数 级 增长 。 单 是 要 覆盖 到 四 列 的 所 有 可 能 的 组 合 情 况 ，MySQL 就 要 达到 极限 了 。 

它 会 变 得 非常 慢 ， 并 且 要 花费 很 多 系统 开销 去 维护 索引 。 这 意味 着 对 于 许多 WHERE 条 件 ， 
实际 上 不 可 能 拥有 它 所 需要 的 所 有 索引 ， 你 不 得 不 在 没有 索引 的 条 件 下 运行 查询 。 


更 重要 的 是 ， 即 使 可 以 增加 索引 ， 也 无 法 受益 很 多 ， 除 非 它 们 具有 良好 的 可 选择 性 。 有 
一 个 典型 的 例子 是 gender 列 ， 它 几乎 帮 不 上 忙 ， 因 为 会 命中 大 约 所 有 行 中 的 一 半 。 当 索 
引 因 人 缺少 可 选择 性 而 帮 不 上 忙 时 ，MySQL 一 般 会 回 到 全 表 扫 描 。 


Sphinx 运行 这 类 查询 的 速度 比 MySQL 快 很 多 。 你 可 以 只 将 数据 中 所 需要 的 列 做 成 
Sphinx 索引 。 然 后 Sphinx 会 允许 用 两 种 方式 来 访问 这 些 数据 : 用 关键 字 索 引 搜索 或 全 
表 扫 朱 。 在 这 两 种 方式 里 ，Sphinx 都 用 到 了 过 滤器 ， 它 相当 于 一 个 WHERE 子 句 。 但 是 ， 
Al MySQL 不 一 样 ，MySQL 是 在 内 部 决定 使 用 索引 还 是 全 扫描 ， 而 Sphinx 是 让 你 自己 
选择 要 使 用 哪 一 种 访问 方法 。 


要 使 用 带 筛 选 的 全 扫描 ， 你 可 以 指定 一 个 空 字 符 串 用 作 搜 索 查 询 条 件 ; 要 使 用 索引 搜索 ， 
你 可 以 在 构建 索引 时 加 一 些 伪 关 键 字 进去 ， 然 后 再 搜索 那些 关键 字 。 人 例如， 如果 你 想 搜 
索 分 类 123 里 的 物品 ， 你 可 以 在 建 索引 时 把 “分 类 123” 关 键 字 添 加 到 文档 里 ， 然 后 针 
对 “分 类 123” 做 全 文 搜索 。 你 可 以 使 用 CONCAT() 函数 把 关键 字 加 到 已 有 的 一 个 字段 里 ， 
或 者 为 了 更 好 的 灵活 性 ， 为 这 些 伪 关 键 字 创建 一 个 特别 的 全 文 搜索 字段 。 通 常 而 言 ， 对 
THe Set 30% 无 选择 性 值 的 行 就 应 该 选择 筛选 ; 而 对 于 具有 选择 性 的 值 覆 盖 面 不 超 
过 10% 的 ， 应 该 使 用 伪 关 键 字 ; 如 果 目 标 值 是 处 于 10%~30% 的 灰色 区 域 ， 就 难说 了 。 
你 应 该 做 几 次 基准 测试 以 找 出 最 佳 解 决 方案 。 


Sphinx 无 论 是 执行 索引 搜索 还 是 全 扫描 都 快 过 MySQL. A, Sphinx 的 全 扫描 实际 上 
LE MySQL 的 索引 读 取 还 要 快 。 


找 出 结果 集 里 的 前 几 行 
Web 应 用 常常 需要 用 到 结果 和 集 里 按 顺 序 排列 的 前 NN 行 。 如 同 我 们 之 前 讨论 过 的 , 在 
MySQL 5.5 和 之 前 版 本 中 很 难 优化 。 


最 精 糕 的 情况 就 是 根据 WHERE 条 件 找到 了 许多 行 〔 假 设 有 100 547), 而 ORDER BY 里 的 
列 却 没有 被 索引 过 。MySQL 使 用 索引 识别 出 所 有 匹配 的 行 ， 然 后 使 用 半 随机 磁盘 读 ， 把 
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记录 一 行 接 一 行 地 读 到 排序 缓冲 区 里 ， 接 着 用 一 种 文件 排序 将 这 些 结果 进行 排序 ， 最 后 
丢弃 其 中 的 绝 大 多 数 。 它 会 临时 存储 和 处 理 整 个 结果 集 ， 忽 略 LIMIT 子 句 ， 搅 乱 RAM。 
如 果 排 序 缓冲 区 放 不 下 整个 结果 集 ， 还 需要 用 到 临时 表 ， 引 发 更 多 的 磁盘 1O。 


这 里 还 有 一 个 极端 的 例子 ， 你 可 能 会 认为 这 在 真实 世界 里 几乎 不 会 发 生 ， 但 事实 上 ， 它 
常常 会 发 生 。MySQL 在 用 于 排序 的 索引 方面 是 有 限制 的 一 一 只 使 用 索引 的 最 左边 部 分 ， 
不 支持 松散 索引 扫描 (loose index scan )， 并 且 只 人 允许 一 个 单独 的 范围 条 件 一 一 这 意味 着 
真实 世界 里 的 查询 不 能 从 这 些 索 引 中 受益 。 即 使 能 够 受益 ， 使 用 半 随 机 磁盘 1/0 来 获取 
行 也 是 一 个 性 能 杀手 。 


要 对 结果 集 进行 分 页 ， 常 常 需要 做 形 如 SELECT ... LIMIT N,M 的 查询 ， 这 是 MySQL 的 
另 一 个 性 能 问题 。 它们 会 从 磁盘 里 读 取 N + M 行 ,由 此 引发 大 量 的 随机 1/0 ,浪费 内 存 资源 。 
Sphinx 通过 消除 以 下 两 个 主要 问题 可 以 显著 加 速 这 类 查询 。 


内 存 使 用 
Sphinx 对 RAM 的 使 用 有 严格 限制 ， 这 个 限制 也 是 可 以 配置 的 。Sphinx 也 支持 与 
MySQL LIMIT N, MM 语法 类 似 的 结果 集 偏 移 量 和 大 小 ， 但 是 它 还 有 一 个 max_matches 
选项 。 它 以 每 个 服务 器 和 每 个 查询 为 基础 ， 可 控制 类 似 “ 排 序 缓冲 区 ”的 大 小 。 

IO 
如 果 属 性 是 存储 在 RAM 里 的 ，Sphinx 就 不 会 做 任何 IO 操作 。 即 使 属性 是 存储 在 
磁盘 上 ，Sphinx 也 是 通过 顺序 IO 来 读 取 它们 ， 这 比 MySQL 使 用 半 随 机 方式 从 磁 
盘 获 取 行 要 快 很 多 。 


通过 综合 关联 度 〈 权 重 ) 、 属 性 值 和 聚合 函数 值 〈 当 使 用 GROUP BY 时 )， 可 以 对 搜索 结 
采 进 行 排 序 。 排 序 子 句 的 语法 跟 SQL ORDER BY 子 句 类 似 。 


<?php 

$cl = new SphinxClient (); 

$cl->SetSortMode ( SPH SORT EXTENDED, ‘price DESC, @weight ASC’ ); 
// more code and Query() call here... 

?> 


FEB, price 是 存储 在 索引 中 的 用 户 指定 的 属性 ，@weight 是 一 个 特殊 的 属性 ， 在 运 
行 时 创建 ， 它 包含 的 是 每 一 个 搜索 结果 估算 出 来 的 关联 度 。 你 也 可 以 使 用 算术 表达 式 对 
结果 再 进行 排序 ， 算 术 表 达 式 里 可 以 包含 属性 值 、 和 常用 数学 运算 符 和 函数 。 

<?php 

$cl = new SphinxClient (); 

$cl->SetSortMode ( SPH SORT EXPR, ‘@weight + log(pageviews)*1.5' ); 


// more code and Query() call here... 
?> 
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优化 GROUP BY 查询 


没有 GROUP BY 功能 的 话 ， 对 于 日 常 的 类 SQL 子 句 的 支持 也 将 不 完整 ， 因 此 ，Sphinx 也 
支持 GPOUP BY。 但 与 MySQL 的 通用 实现 不 同 ，Sphinx 擅长 高 效 筛选 出 GROUP BY 任务 
所 需要 的 实际 子 集 。 这 个 子 集 可 以 从 如 下 场景 拥有 的 大 数据 集 (1 亿 行 ) 中 生成 报表 : 


© 结果 是 分 组 行 中 的 少 部 分 (这 里 的 “ 少 ” 是 指 10 万 ~ 100 万 量 级 )。 
e 当 从 分 布 在 集群 中 的 多 台 机 器 上 获取 很 多 分 组 数据 时 ， 需 要 非常 快 的 执行 速度 ， 同 
时 近似 的 COUNT(*) 结果 可 以 接受 。 


这 没有 了 听 起 来 那样 严格 。 第 一 个 场景 实际 上 覆盖 了 所 有 可 以 想象 的 基于 时 间 的 报告 。 举 
个 例子 ， 每 小 时 一 次 且 持续 时 间 为 10 年 的 一 个 详细 报告 ， 将 会 返回 少 于 90 000 行 记录 。 
第 二 个 场景 可 以 像 这 样 通俗 地 表述 : 尽 可 能 迅速 和 精确 地 从 1 亿 行 的 分 片 表 中 找 出 最 
重要 的 20 条 记录 。 


这 两 种 类 型 的 查询 会 加 速 通用 查询 ， 但 也 可 以 在 全 文 搜索 应 用 中 使 用 。 许 多 应 用 不 仅 需 
要 显示 全 文 匹 配 结果 ， 还 要 显示 一 些 附 集结 果 。 例 如 ， 许 多 搜索 结果 页 显示 了 每 个 产品 
目录 中 有 多 少 匹 配 的 产品 被 找到 ， 或 一 张 按 时 间 顺 序 的 数量 变化 图 。Sphinx 的 group-by 
支持 可 以 结合 分 组 和 全 文 搜索 ， 消 除 在 应 用 程序 或 MySQL 中 做 分 组 的 开销 。 


在 Sphinx 中 的 排序 和 分 组 都 使 用 固定 的 内 存 ， 它 的 效率 比 类 似 数据 集 全 部 可 以 放 在 
RAM 中 的 MySQL 查询 要 稍微 (10% ~ 50%) 高 些 。 在 本 例 中 ， 大 部 分 Sphinx 的 能 力 
来 源 于 它 可 以 分 散 负载 和 大 大 减少 延 时 。 对 于 永 不 会 全 部 放 和 人 RAM 中 的 大 数据 集 来 说 ， 
可 以 使 用 内 联 属 性 (后面 会 定义 ) 创建 特别 的 基于 磁盘 的 索引 来 生成 报告 。 对 这 些 索 引 
执行 查询 大 约 和 读数 据 一 样 快 一 一 在 现代 硬件 中 大 概 是 30 ~ 100MB/s。 在 这 个 情况 下 ， 
性 能 会 比 MySQL 好 许多 倍 ， 尽 管 结果 是 近似 的 。 


与 MySQL 的 GROUP BY 最 大 的 不 同 点 是 ,在 某 些 特定 场景 下 Sphinx 可 能 只 生成 近似 结果 。 
对 于 这 点 有 两 个 原因 。 


。 ”使 用 固定 量 的 内 存 来 做 分 组 。 如 果 有 太 多 的 分 组 而 不 能 放 在 RAM 中 ,并 且 以 某 种 "不 
幸 的 ”顺序 匹配 ， 每 组 数量 可 能 比 实际 值 要 小 。 

。 分布 式 搜索 只 发 送 联 合 结果 ， 而 不 是 一 个 市 点 一 个 市 点 进行 匹配 。 如 有 果 在 不 同 的 市 
点 上 有 重复 记录 ， 每 组 去 重 的 数据 可 能 会 比 实际 值 要 大 ， 因 为 可 以 去 重 的 信息 并 没 
有 在 市 点 之 间 传 送 。 


实践 中 ， 快 速 的 近似 group-by 数量 经 常 是 可 以 接受 的 。 如 有 果 这 不 可 接受 ， 往 往 也 可 能 通 
过 仔细 地 配置 后 台 进 程 和 客户 端 应 用 来 取得 精确 结果 。 
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你 也 可 以 产生 与 COUNT(DISTINCT <attribute>) 等 价 的 结果 。 例 如 ， 在 一 个 拍卖 网 站 上 ， 
你 可 以 使 用 它 来 计算 每 个 分 类 里 卖家 的 精确 数目 。 j 


最 后 ,Sphinx 可 以 让 你 选取 一 个 标准 ,然后 用 这 个 标准 在 每 个 分 组 里 找到 唯一 的 “最 合适 
的 文档 。 例 如 ， 在 以 域 分 组 且 按 每 个 域 里 的 匹配 数量 排序 结果 集 时 ， 可 以 从 每 个 域 里 选 
择 相 关 度 最 高 的 文档 。 这 在 MySQL 里 不 用 复杂 的 查询 是 做 不 到 的 。 


并 行 地 取 结 果 集 

Sphinx 可 以 让 你 从 相同 数据 中 同时 产生 几 份 结果 , 同样 是 使 用 固定 量 的 内 存 。 作 为 对 比 ， 
传统 的 SQL 方法 要 么 运行 两 个 查询 (并且 希望 两 次 运行 中 某 些 数据 维持 在 缓存 中 )， 要 
么 对 每 个 搜索 结果 集 创建 一 个 临时 表 ，Sphinx 的 方法 会 产生 显著 的 改进 。 


举例 来 说 ， 假 设 你 需要 针对 每 天 、 每 星期 、 每 月 定期 生成 该 段 时 间 周 期 里 的 报表 ， 要 用 
MySQL 生成 将 不 得 不 使 用 不 同 的 GROUP BY 子 名 运行 三 次 查询 ,对 源 数据 处 理 三 次 。 然 而 ， 
Sphinx 对 于 这 些 数据 只 要 处 理 一 次 就 行 了 ， 然 后 就 可 以 并 行 地 生成 全 部 三 份 报表 。 


Sphinx 用 一 个 multi-query 机 制 来 完成 这 项 任务 。 不 是 一 个 接 一 个 地 发 起 查询 ， 而 是 把 几 
个 查询 做 成 一 个 批 处 理 ， 然 后 在 一 个 请 求 里 提交 。 

<?php 

$cl = new SphinxClient (); 

$cl->SetSortMode ( SPH SORT EXTENDED, "price desc" ); 

$cl->AddQuery ( "ipod" ); 

$cl->SetGroupBy ( "category id", SPH GROUPBY ATTR, "@count desc" ); 

$cl->AddQuery ( "ipod" ); 


$cl->RunQueries (); 
?> 


Sphinx 会 分 析 这 个 查询 ， 识 别 出 可 以 合并 的 各 查询 部 分 ， 然 后 并 行 地 执行 这 些 查 询 。 


例如 ， 可 能 注意 到 ， 排序 CM aaa 同 ， 而 查询 是 相同 的 。 这 就 是 上 面 
但 用 category_id 分 组 。Sphinx 会 创建 几 个 
排序 队列 来 处 理 这 些 查询 。 当 运 行 这 些 查 询 时 ， 它 会 一 次 性 地 获取 到 行 ， 然 后 把 它们 提 
交 到 所 有 的 队列 里 。 与 一 个 接 一 个 运行 查询 相 比 较 ， 这 个 方法 消除 了 几 个 元 余 的 全文 检 
索 或 全 扫描 操作 。 


注意 并 行 结果 集 的 生成 ， 虽 然 这 是 常见 又 重要 的 优化 ， 但 是 ， 这 只 是 更 一 般 化 的 multi- 
query 机 制 的 一 个 特例 。 它 不 是 唯一 可 能 的 优化 。 其 中 的 指导 法 则 是 尽 可 能 地 把 多 个 查 
询 放 在 一 个 请 求 中 ， 这 通常 有 助 于 Sphinx 开展 内 部 优化 操作 。 即 使 Sphinx 无 法 并 行 处 
理 这 些 查询 ， 也 可 以 节省 网 络 往返 。 而 且 ， 如 果 将 来 Sphinx 加 入 更 多 的 优化 功能 ， 你 的 
查询 就 能 自动 地 使 用 到 它们 而 无 须 做 任何 修改 。 
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扩展 
Sphinx 的 可 扩展 性 无 论 在 水 平方 向 (向 外 扩展 ) 还 是 垂直 方向 (向 上 扩展 ) 上 都 非常 好 。 


Sphinx 完全 可 以 在 各 机 器 之 间 分 布 。 我 们 提 到 过 的 用 户 案例 都 能 受益 于 跨 CPU 的 分 布 
工作 。Sphinx 的 搜索 后 台 进 程 (searchd) 支持 特别 的 分 布 式 索引 ， 它 知道 哪些 本 地 和 远 
程 的 索引 需要 查询 和 聚合 。 这 意味 着 向 外 扩展 就 是 一 次 轻微 的 配置 更 改 。 你 只 需 在 各 个 
节点 间 将 数据 分 区 ， 然 后 配置 主 节 点 使 其 能 向 其 他 节点 并 行 地 发 起 查询 。 这 就 是 所 有 要 
做 的 事情 。 


你 也 能 向 上 扩展 ， 在 单独 的 机 器 上 增加 更 多 CPU 或 内 核 ， 从 而 提高 响应 速度 。 为 了 达到 
这 个 目的 ， 你 可 以 在 单 台 机 器 上 运行 好 几 个 searchd 实例 ， 然 后 通过 分 布 式 索引 ， 从 另 
外 的 机 器 过 来 查询 它们 。 另 外 一 种 可 选择 的 方法 是 ， 你 可 以 把 一 个 单独 的 实例 配置 为 能 
与 它 自己 通信 ， 这 样 并 行 的 “远程 ”查询 其 实 就 发 生 在 同一 台 机 器 上 ,但 是 使 用 的 是 不 
同 的 CPU 或 内 核 。 


换 句 话说 ， 使 用 Sphinx 的 单个 查询 也 能 使 用 到 不 止 一 个 CPU (多 个 并 发 查询 会 自动 使 
HZA CPU). XIR MySQL 有 显著 的 区 别 ，MySQL 的 一 个 查询 只 能 使 用 到 一 个 CPU, 
无 论 有 多 少 个 CPU 可 供 使 用 。 另 外 ，Sphinx 在 并 发 执行 查询 时 不 需要 任何 同步 ， 这 就 
避免 了 使 用 互 斥 体 (一 种 同步 机 制 )。 而 互 尺 体 正 是 MySQL 在 多 CPU 环境 下 才 会 出 现 
的 声名 狼藉 的 性 能 瓶颈 之 一 。 


向 上 扩展 的 另 一 个 重要 方面 是 扩展 磁盘 IO。 不 同 的 索引 (包括 部 分 更 大 型 的 分 布 式 索 引 ) 
能 够 轻松 地 放 在 不 同 的 物理 磁盘 或 RAID 分 卷 上 ， 以 提高 响应 速度 和 吞吐 量 。 这 个 方法 
的 一 部 分 好 处 跟 MySQL 5.1 的 分 片 表 一 样 ， 后 者 能 将 数据 分 片 存储 到 不 同 的 位 置 上 。 不 
过 ,分布 式 索 引 也 有 一 些 比分 片 表 更 好 的 优点 。Sphinx 使 用 分 布 式 索 引 不 仅 可 以 分 散 负 
载 ， 还 能 并 行 地 处 理 一 个 查询 的 各 个 部 分 。 相 比 之 下 ，MySQL 的 分 片 表 能 通过 对 分 片 
的 剪 枝 来 优化 一 些 查询 (并 不 是 所 有 的 ) ， 但 查询 的 处 理 是 不 能 并 行 的 。 即 使 Sphinx 和 
MySQL 的 分 片 都 能 提高 查询 的 吞吐 量 ， 但 如 果 查 询 是 I/O 密集 的 ， 则 可 以 使 用 Sphinx 
让 所 有 查询 的 响应 速度 得 到 线性 的 提高 ， 而 MySQL 分 片 只 能 对 那些 可 采用 前 去 整个 分 
区 的 查询 才能 改善 延 时 。 


分 布 式 搜索 的 工作 流程 非常 直观 。 


L 四 所 有 远程 服务 器 发 出 远程 查询 。 

2. 执行 连续 的 本 地 索引 搜索 。 

3. 从 每 个 远程 服务 器 上 读 取 部 分 搜索 结果 。 

4. 将 所 有 局 部 搜索 结果 合并 成 最 终结 果 集 ， 并 将 它 返回 给 客户 端 。 
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如 果 硬 件 资源 允许 ， 也 可 以 在 同一 台 机 器 上 并 行 地 使 用 几 个 索引 进行 搜索 。 如 果 有 多 个 
物理 磁盘 驱动 器 和 多 个 CPU 内 核 ， 那 么 并 发 查询 就 能 互 不 妨碍 地 执行 。 你 可 以 假装 有 一 
些 索 引 是 远程 的 ， 然 后 配置 searcha 联系 自身 ， 从 而 在 同一 台 机 器 上 发 起 并 行 查询 。 


index distributed sample 


type = distributed 
local = chunki # resides on HDD1 
agent = localhost:3312:chunk2 # resides on HDD2, searchd contacts itself 


从 客户 端的 视角 来 看 ， 分 布 式 索 引 跟 本 地 索引 完全 没什么 两 样 。 这 就 允许 你 通过 使 用 节 
点 来 代理 其 他 的 节点 集 的 方式 ， 来 创建 出 一 棵 分 布 式 索 引 的 “ 树 "”。 例 如 ， 第 一 级 节点 
可 以 代理 一 定量 的 第 二 级 节点 的 查询 请 求 ， 结 果 就 是 ， 可 以 以 任意 的 路 径 ， 本 地 搜索 它 
们 本 身 ， 或 传递 查询 到 其 他 节点 。 


聚合 分 片 数据 
构建 一 个 可 扩展 的 系统 常常 要 涉及 数据 在 不 同 物理 MySQL 服务 器 间 的 分 片 (分 区 )。 这 
在 第 11 章 里 已 经 深入 讨论 过 了 。 


当 数 据 以 合适 的 粒度 分 片 后 ， 即 使 只 是 使 用 选择 性 的 WHERE (这 应 该 非常 快 ) 获取 几 行 
数据 的 查询 也 意味 着 要 关联 到 许多 服务 器 ， 检 查 错误 ， 以 及 在 应 用 里 将 搜索 结果 合并 在 
一 起 。Sphinx 减轻 了 这 个 问题 的 痛苦 , 因为 所 有 必要 的 功能 都 在 后 台 搜 索 进程 里 实现 了 。 


考虑 这 样 一 个 例子 : 有 一 个 1TB 大 小 的 表 ， 其 中 有 10 亿 篇 博客 文章 ， 通 过 用 户 ID 分 片 
到 10 个 物理 MySQL 服务 器 上 ， 这 样 给 定 用 户 的 文章 总 是 在 同一 台 服 务 器 上 。 只 要 查询 
是 限制 在 单个 用 户 上 ， 一切 都 很 好 : 我 们 根据 用 户 ID 先 选 定 服务 器 ， 然 后 照常 运作 。 


现在 假定 我 们 要 实现 一 个 归档 分 页 功能 来 显示 该 用 户 的 所 有 朋友 发 表 的 文章 。 我 们 怎么 
按 发 布 日 期 排序 显示 “其 他 sysbench 特性 ”的 第 981 ~ 1000 个 条 目 呢 ? 大 量 朋 友 的 数 
据 很 可 能 是 在 不 同 的 服务 器 上 。 如 果 仅 有 10 个 朋友 ， 那 就 有 约 90% 的 可 能 会 用 到 8 台 
以 上 服务 器 ， 如 果 是 20 个 朋友 ， 这 个 可 能 性 就 提高 到 了 99%。 因 此 ， 对 于 大 多 数 查询 
而 言 ， 我 们 需要 关联 到 所 有 服务 器 。 更 糟糕 的 是 ， 我 们 还 要 从 每 台 服务 器 上 拉 1000 篇 
文章 ， 然 后 在 应 用 程序 里 进行 排序 。 按 照 本 书 前 面 所 提供 的 建议 ， 我 们 将 数据 裁减 到 只 
需要 文章 ID AAR., GÆ, RE 10 000 条 记录 要 在 应 用 程序 里 排序 。 许 多 现代 肢 
本 语言 单 在 排序 这 一 步骤 上 就 会 消耗 掉 大 量 的 CPU 时 间 。 除 此 以 外 ， 我 们 或 者 要 按 顺 序 
从 每 个 服务 器 上 获取 结果 记录 (这 会 很 慢 ) ， 或 者 要 编写 一 些 代 码 构造 并 行 查询 线程 (这 
很 难 实现 和 维护 ) 。 
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在 这 样 的 情形 下 ， 采 用 Sphinx 将 比重 新 发 明 轮子 显得 更 有 意义 。 在 本 例 中 所 要 做 的 事情 
就 是 建立 几 个 Sphinx 实例 ， 从 每 个 表 里 映 射出 经 常 访问 的 文章 属性 一 一 在 这 里 就 是 文章 
ID, MÈ IDFR AR, AEE Sphinx 实例 上 查询 第 981 ~ 1000 条 记录 ， 并 按照 发 
布 日 期 排序 ， 全 部 算 起 来 大 概 是 3 行 代 码 。 这 是 更 明智 的 扩展 方法 。 


架构 概要 
Sphinx 是 一 个 独立 的 程序 集 。 两 个 主要 程序 如 下 。 


indexer 
这 个 程序 用 来 从 各 种 特定 的 资源 上 (例如 MySQL 的 查询 结果 ) 获取 文档 ， 并 据 此 
创建 全 文 索引 。 这 是 一 个 后 台 批 处 理 任务 ， 网 站 一 般 会 定时 运行 它 。 

searchd 


这 是 一 个 后 台 进程 ， 用 于 查询 indexer 构建 的 索引 。 它 为 应 用 程序 提供 运行 时 支持 。 


Sphinx 的 发 布 包 里 还 包含 有 多 种 编程 语言 的 searchd 原生 客户 端 API (在 本 书写 作 时 ， 
这 些 语言 包括 PHP, Python, Perl, Ruby 和 Java), DARE MySQL 5.0 及 以 上 版 本 中 作 
为 播 件 式 存 储 引擎 实 现 的 客户 端 SphinxSE。 这 些 API 和 SphinxSE 都 可 供 客 户 端 应 用 连 
接 到 searchd， 然 后 把 查询 语句 传递 过 去 ， 最 终 取 回 搜索 结果 


每 一 个 pn = Rela Atel eee N 3 s a 





会 讲 到 。) 每 一 个 文档 都 有 一个 唯一 的 32 位 或 64 UN 取 目 数据 表 里 的 索引 
字段 (例如 ， 从 主键 列 中 取 )。 另 外 ， 每 一 个 文档 拥有 一 个 或 多 个 全 文字 段 (每 一 个 都 
对 应 于 数据 库 里 的 一 个 文本 字段 ) 和 数值 属性 。 就 像 一 个 数据 表 一 样 ，Sphinx 索引 在 所 
有 文档 里 都 有 着 一 样 的 字段 和 属性 。 表 F-1 显示 了 数据 表 和 Sphinx 索引 的 相似 之 处 。 


表 F-1: 数据 库 结 构 和 相应 的 Sphinx 结 构 


数据 库 结 fy ” “Sphinx 结构 

CREATE TABLE documents ( index documents 
id int(11) NOT NULL auto increment, document ID 
title varchar(255), title field, full-text Andai 
content text, content field, full-text indexed 
group_id int(11), group_id attribute, sql_attr_uint 
added datetime, added attribute, sql attr timestamp 


PRIMARY KEY (id) 
); 


~~~ 


Sphinx 不 存储 数据 库 中 的 文本 字体 ， 只 使 用 它们 的 内 容 来 创建 一 个 搜索 索引 。 
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安 效 绽 述 
Sphinx 安装 非常 直观 ， 一 般 包括 如 下 步骤 。 
1. 从 源码 编译 程序 。 


$ configure && make && make install 


2. 创建 一 个 配置 文件 : 定义 数据 源 和 全 文 索引 。 
3. 初始 索引 化 。 
4. 启动 searchd, 


在 这 之 后 ， 客 户 程 序 即 拥有 查询 功能 。 


<?php 

include ( 'sphinxapi.php' ); 

$cl = new SphinxClient (); 

$res = $cl->Query ( ‘test query’, ‘myindex' ); 

// use $res search result here 

?> 
唯一 还 没 做 的 事情 就 是 定时 运行 indexer 来 更 新 全 文 索引 数据 。 在 重建 索引 的 时 候 ， 
searchd 当前 正在 使 用 的 索引 还 是 全 部 可 以 使 用 的 : indexer 会 检测 到 索引 正在 使 用 ， 然 
后 创建 一 个 “影子 ”索引 来 代替 。 在 索引 创建 完 之 后 ， 它 会 通知 searchd 使 用 这 个 完成 


的 副本 。 


全 文 索引 存储 在 文件 系统 中 〈 保 存 路 径 在 配置 文件 里 指定 )， 存 储 为 一 种 特定 的 “整体 - 
形式 ， 这 种 形式 不 适合 做 增 量 更 新 。 通 常 的 更 新 索引 的 方法 就 是 全 部 重建 。 这 个 问题 没 
有 看 起 来 那么 大 ， 原 因 有 以 下 几 氮 。 


e。 创建 索引 的 速度 很 快 。 在 现在 的 硬件 设备 上 ，Sphinx 索引 普通 文本 (不 带 HTML 标 
记 ) 的 速度 是 4 ~ 8MB/s。 

e。 可 以 把 数据 分 割 到 几 个 索引 里 ,下 一 小 市 里 会 讲 到 。 每 次 运行 indexer 时 只 对 需要 更 
新 的 那 部 分 数据 进行 索引 重建 。 

。 无 须 对 索引 做 “碎片 整理 ”一 一 它们 本 来 就 是 为 优化 1/0 而 构建 的 ， 这 能 提高 搜索 
速度 。 

。 数值 属性 可 以 直接 更 新 ， 无 须 重建 全 部 索引 。 

在 未 来 的 版 本 里 ， 还 会 提供 一 个 额外 的 索引 后 端 ， 它 将 支持 实时 的 索引 更 新 。 
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典型 的 分 区 使 用 
下 面 详细 讨论 分 区 。 最 简单 的 分 区 模式 是 maintdelta 方法 , 对 一 个 文档 集 创建 两 个 索引 。 
main 索引 全 部 文档 集 ， 而 delta 只 索引 自 上 次 main 索引 创建 之 后 发 生变 更 的 文档 。 


这 个 模式 与 许多 数据 变更 模式 完全 吻合 。 论 坛 、 博 客 、 电 子 邮 件 和 新 闻 归 档 ， 以 及 垂直 
索引 引擎 都 是 很 好 的 例子 。 那 些 存 储 库 的 大 部 分 冷 数据 自 创 建 后 从 不 更 新 ， 只 有 很 小 一 
部 分 的 热 数据 经 常 改变 或 增加 。 这 意味 着 delta 索引 很 小 并 且 可 以 在 需要 时 重建 (例如 ， 
每 隔 1 ~ 15 分 钟 一 次 )。 这 相当 于 只 对 新 插入 的 行 做 索引 。 


你 不 需要 重建 索引 来 改变 与 文档 关联 的 属性 一 一 可 以 通过 searchd 在 线 做 。 可 以 通过 简 
单 地 在 main 索引 上 设置 “deleted ”特性 来 标记 行 已 删除 。 因 此 ， 可 以 在 main 索引 中 对 
文档 标记 这 个 属性 来 处 理 更 新 ， 然 后 重建 delta 索引 。 对 所 有 未 标记 为 “deleted” 的 文档 
搜索 会 返回 正确 的 结果 集 。 


注意 ， 索 引文 件 可 能 来 自任 何 SELECT 语句 的 结果 ; 不 必 来 自 单个 SQL 表 。 对 SELECT 语 
句 没 有 限制 。 这 意味 着 可 以 在 数据 库 中 建 索引 之 前 预 处 理 结果 。 普 通 预 处 理 例 子 包括 : 
与 其 他 表 的 联接 ， 在 线 创建 额外 的 字段 ， 在 索引 时 排除 某 些 字 段 ， 以 及 生成 一 些 值 。 


特别 的 功能 特性 


除 “ 仅 仅 ” 索 引 和 搜索 数据 库 内 容 外 ，Sphinx 还 提供 几 个 其 他 的 功能 。 下 面 是 其 中 最 重 
要 的 部 分 。 


。 搜索 和 排 位 算法 记录 词 的 位 置 ， 并 且 查 询 阶 段 接近 的 文档 内 容 ， 也 会 被 计算 在 内 。 
。 可 以 把 数值 属性 绑 定 到 文档 中 ， 包 括 多 值 属 性 。 

。 可 以 按 属性 值 排 序 、 过 滤 和 分 组 。 

。 可 以 创建 与 搜索 查询 关键 字 高 亮 的 文档 片段 。 

。 可 以 跨 多 人 台 机 器 做 分 布 式 搜索 。 

。 可 以 优化 查询 ， 从 相同 的 数据 中 产生 几 个 结果 集 。 

e。 ”可 以 从 MySQL 中 使 用 SphinxSE 来 访问 搜索 结果 。 

e 可 以 很 好 地 调节 Sphinx 对 服务 器 负载 的 影响 。 


我 们 在 前 面 已 经 涉及 了 其 中 部 分 特性 。 本 让 将 介绍 剩 下 的 几 个 特性 。 





近义词 排 位 
Sphinx 能 记 住 每 一 个 文档 内 词语 的 位 置 ， 就 像 其 他 开源 全 文 检 索 系统 那样 。 但 与 它们 不 
同 的 是 ， 它 使 用 位 置 对 匹配 度 进行 排序 ， 返 回 更 相关 的 结果 。 
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有 许多 因素 会 影响 到 文档 的 最 终 排 位 。 为 了 计算 排 位 ， 其 他 许多 系统 只 使 用 了 关键 字 的 
ME : 每 一 个 关键 字 的 出 现 次 数 。 几 乎 被 所 有 全 文 检 索 系 统 使 用 的 经 典 的 BM25 权重 函 
a" 就 是 把 更 多 的 权重 分 给 这 样 一 些 词语 ， 它 们 或 者 在 特定 的 被 检索 文档 里 常常 出 现 ， 
或 者 很 少 在 整个 文档 集 里 出 现 。BM25 返回 的 结果 通常 就 是 最 终 的 排 位 值 。 


与 之 不 同 ，Sphinx 也 计算 查询 短语 的 近似 度 ， 就 是 文档 内 包含 的 查询 子 短语 的 最 大 长 度 ， 
以 词语 为 计数 单位 。 举 例 来 说 ， 用 短语 “John Doe Jr” 在 带 有 文本 “John Black, John 
White Jr, and Jane Dunne” 的 文档 里 搜索 时 ,会 产生 一 个 1 的 短语 近似 度 , 因为 按 查 询 序列 ， 
没有 两 个 词语 一 同 出 现在 文档 里 。 如 果 文 档 的 文本 是 “Mr. John Doe Jr and friends”， 那 
就 是 3 的 近似 度 ， 因 为 这 三 个 查询 词语 依次 出 现在 文档 里 。 而 文本 “John Gray, Jane Doe 
Jr” 会 生成 2 的 近似 度 ， 这 归功 于 “Doe Jr ”查询 子 短语 。 


在 默认 情况 下 ，Sphinx 首先 是 用 短语 近似 度 排 序 的 ， 其 次 才 是 经 典 的 BM25。 这 意味 着 
逐 字 的 查询 引用 可 以 保证 非常 靠 前 ， 而 由 一 个 单独 的 词语 引用 刚好 在 它们 下 面 ， 等 等 。 


短语 近似 度 是 何 时 以 及 如 何 影 响 结 果 的 呢 ? 设想 要 在 1 000 000 页 的 文本 里 搜索 短语 “To 
be or not to be”, Sphinx 会 将 逐 字 引用 的 页 面 放 在 搜索 结果 的 最 前 面 ， 而 其 他 基于 BM25 
的 系统 会 首先 返回 那些 包含 了 最 多 的 “to"”、 “be”, “or” 和 “not” 的 页 面 一 一 那些 包含 
了 一 个 确切 引用 的 页 面 会 只 因 里 面 的 “to” 不 够 多 ， 就 被 埋没 在 搜索 结果 的 深 处 了 。 


当今 许多 主流 的 Web 搜索 引擎 用 关键 字 位 置 对 结果 进行 排 位 也 是 一 样 的 原理 。 在 Google 
上 搜索 一 个 短语 ， 它 就 会 把 最 完美 或 接近 完美 包含 匹配 短语 的 文档 放 在 结果 的 最 上 面 ， 
后 面 是 “ 词 袋 ”文档 。 


然而 ， 分 析 关 键 词 的 位 置 会 需要 额外 的 CPU 时 间 ， 有 时 可 能 会 出 于 性 能 考虑 而 跳 过 这 一 
步 。 在 有 些 情况 下 ， 短 语 排 位 也 会 产生 不 受 欢 迎 的 、 出 乎 意料 的 结果 。 例 如 ， 在 云 里 搜 
索 标 签 时 没有 关键 字 位 置 会 更 好 一 些 : 要 查询 的 tag 在 文档 里 是 否 相 邻 也 没什么 区 别 。 


为 了 顾及 灵活 性 ，Sphinx 提供 了 排 位 模式 的 选择 。 除 了 默认 的 近似 度 加 BM25 之 外 ， 还 
能 选用 多 种 其 他 类 型 的 方法 ， 包 括 只 有 BM25 权 值 的 、 完 全 禁用 权 值 的 (如 果 不 是 使 用 
排 位 做 排序 ， 它 能 提供 很 好 的 优化 ) ， 等 等 。 


支持 属性 j 

每 一 个 文档 都 可 以 包含 无 限 数目 的 数值 属性 。 属 性 是 用 户 指定 的 ， 能 够 根据 特定 任务 的 
需要 包含 任何 额外 的 信息 。 相 应 的 例子 包括 : 一 篇 博客 文章 的 作者 ID、 明 细 表 里 一 个 项 
目的 价格 、 一 个 分 类 ID ， 等 等 。 


注 1: 详情 参考 http-//en.wikipedia.org/wiki/Okapi_BM25 
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属性 依靠 额外 的 过 滤 、 排 序 和 对 搜索 结果 进行 分 组 ， 以 提高 全 文 搜索 的 效率 。 在 理论 上 ， 
它们 可 以 被 存储 在 MySQL 里 ， 而 在 执行 搜索 时 再 取出 来 。 但 在 实际 应 用 中 ， 如 果 全 文 
检索 要 从 MySQL 里 定位 几 百 或 几 千 行 数据 〈 这 也 不 算 多 )， 检 索 它 们 将 慢 得 不 可 接受 。 


Sphinx 支持 两 种 存储 属性 的 方式 : 内 联 到 文档 列表 或 者 放 在 外 部 单独 的 文件 里 。 内 联 要 
求 所 有 属性 值 要 在 各 索引 里 存储 多 次 ， 每 当 有 文档 ID 存 入 就 会 有 一 次 。 这 会 增加 索引 
的 大 小 ， 还 会 提升 1/0 数量 ,但 也 会 减少 RAM 的 使 用 。 在 外 部 对 属性 进行 排序 ， 需 要 
在 searchd 启动 时 把 它们 预 加 载 到 RAM 里 。 


属性 通常 都 能 被 放 入 RAM 中 ,因此 ,常见 的 做 法 就 是 把 它们 存储 在 外 部 。 这 可 以 使 过 滤 、 
排序 和 分 组 更 加 快速 ， 因 为 访问 这 些 数 据 就 相当 于 是 一 次 快速 的 内 存 内 查找 。 并 且 ， 只 
有 存放 于 外 部 的 属性 才能 在 运行 时 锌 更新。 内 联 存 储 应 该 只 在 没有 足够 的 空间 RAM 来 
存储 属性 数据 时 使 用 。 


Sphinx 也 支持 多 值 属性 (MVA)。MVA 的 内 容 由 一 个 任意 长 的 整数 值 列表 组 成 ， 每 个 整 
数值 对 应 一 个 文档 。 那 些 很 好 地 利用 了 MVA 的 例子 有 标签 ID 列表 、 产 品 的 分 类 和 访问 
控制 列表 。 


在 全 文 搜索 引擎 里 拥有 对 属性 值 的 访问 权 可 以 让 Sphinx ERRER o pe eet ee 
除 候选 匹配 项 。 从 技术 上 说 ， 过 滤 检 查 发 生 在 校 验 完 文档 是 否 包含 了 所 有 需要 的 关键 字 
之 后 ， 但 又 在 某 个 计算 量 很 大 的 计算 过 程 (例如 排名 ) 之 前 。 因 为 有 了 这 些 优化 ， 使 用 
Sphinx 把 过 滤 和 排序 整合 到 全 文 搜索 里 要 比 在 Sphinx 中 搜索 而 在 MySQL 中 过 滤 结 果 快 
10 ~ 100 倍 。 


Sphinx 支持 两 种 类 型 的 过 滤 ， 这 与 SQL 里 简单 的 WHERE 条 件 很 相似 。 


。 一 个 属性 值 匹配 一 个 特定 范围 内 的 值 ( 跟 BETWEEN 子 句 或 数值 比较 相似 )。 
。 一 个 属性 值 匹配 一 个 特定 的 值 集合 (R IN() 列表 相似 )。 


如 末 过 滤器 有 固定 数量 的 值 (用 “集合 ”过 滤器 代 赫 “ 范 围 ” 过 滤器 )， 并 且 这 些 值 是 
可 选择 的 ， 那 么 ， 用 “ 伪 关 键 字 ”替换 掉 整 型 值 ， 并 用 全 文 内 容 而 非 属性 的 方式 索引 ， 
这 样 是 很 有 意义 的 。 这 同样 适用 于 普通 的 数值 属性 和 多 值 属 性 。 在 下 文 里 我 们 会 看 到 一 
些 关 于 如 何 去 做 的 例子 。 

Sphinx 能 够 使 用 过 滤器 来 优化 全 扫描 。 它 能 记 住 在 一 小 段 连续 的 行 块 默认 是 128 行 ) 
中 的 最 小 和 最 大 属性 值 ,根据 过 滤 条 件 很 快 地 丢弃 掉 整 个 块 。 行 是 按照 文档 ID 升序 存储 ， 
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因此 ， 这 个 优化 工作 最 适合 那些 跟 ID 关联 紧密 的 列 。 例 如 ， 如 果 有 一 个 行 插入 时 间 戳 ， 
它 会 随 着 ID 一 起 增长 ， 那 么 ， 在 这 个 时 间 堆 上 做 带 有 过 滤 的 全 扫描 会 非常 快 。 


SphinxSE 可 插 拔 存储 引擎 

接收 到 来 自 Sphinx 的 全 文 搜索 结果 之 后 ， 几 乎 总 会 有 一 些 涉 及 MySQL 的 额外 工作 要 
做 一 一 从 最 低 限度 来 讲 ，Sphinx 索引 里 没有 存储 的 文本 列 的 值 必须 从 MySQL 里 取得 。 
因此 ， 经 常 需要 把 Sphinx 的 搜索 结果 和 其 他 MySQL 表 联 接 。 


尽管 可 以 把 搜索 结果 里 的 文档 ID 写 在 一 条 查询 语句 中 发 送 给 MySQL, 但 是 ， 这 种 方法 
会 导致 既 不 太 简 洁 也 不 太 高 效 的 代码 。 对 于 量 非 常 大 的 场景 ， 应 该 考虑 使 用 SphinxSE, 
这 是 一 个 可 编译 到 MySQL 5.0 或 更 新 的 版 本 里 的 可 揪 拔 存储 引擎 ， 也 可 作为 一 个 播 件 加 
载 到 MySQL 5.1 或 更 新 的 版 本 里 。 


SphinxSE 可 以 让 程序 员 从 MySQL 里 面 查询 searchd 和 访问 搜索 结果 。 用 法 非常 简单 ， 
只 要 在 创建 表 时 加 上 ENGINE=SPHINX 子 句 (还 有 一 个 可 选 的 CONNECTION FA, HF 
Sphinx 服务 器 不 在 默认 路 径 时 重新 定位 服务 器 ) ， 然 后 就 可 以 在 表 上 运行 查询 了 。 


mysql> CREATE TABLE search table ( 

-> id INTEGER NOT NULL, 

-> weight INTEGER NOT NULL, 

-> query VARCHAR(3072) NOT NULL, 

-> group_id INTEGER, 

->  INDEX(query) 

-> ) ENGINE=SPHINX CONNECTION="sphinx://localhost:3312/test"; 
Query OK, 0 rows affected (0.12 sec) 


mysql> SELECT * FROM search table WHERE query='test;mode=all' \G 
KRKAKKAK KKK KKK KKK KKKKAKKKEE 1, row AE A OK a KR KK OK KK k k k k kkk 


id: 123 
weight: 1 
query: test;mode=all 
group_id: 45 
1 row in set (0.00 sec) 
每 个 SELECT 以 WHERE 子 句 中 的 query 列 的 方式 传递 给 Sphinx Hi, Sphinx searchd hk 
务 器 返回 查询 结果 ， 然 后 SphinxSE 存储 引擎 会 把 它们 翻译 成 MySQL 的 结果 返回 给 该 
_ SELECT 语句 。 


其 中 的 查询 可 能 会 包含 JOIN， 把 别 的 存储 引擎 上 的 其 他 表 联接 进来 。 


. SphinxSE 支持 大 部 分 原本 在 API 里 才 可 用 的 搜索 选项 。 你 可 以 通过 插入 额外 子 句 到 查询 
字符 串 的 方式 设 定 类 似 过 滤 和 范围 限制 选项 。 | 
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mysql> SELECT * FROM search table WHERE query='test;mode=all; 
-> filter=group_id,5,7,11;maxmatches=3000' ; 


通过 API 返回 的 关于 每 一 个 查询 和 每 一 个 词语 的 统计 信息 也 可 以 用 SHOW STATUS 访问 。 


mysql> SHOW ENGINE SPHINX STATUS \G 
六 六 六 六 六 六 六 六 玉米 六 六 六 六 六 六 六 六 冰冰 六 六 六 六 六 六 六 。 了 QW JB bap odor aaa aaa aE 


Type: SPH INX 
Name: stats 


Status: total: 3, total found: 3, time: 8, words: 1 
ARK KKK KKK KK KK RK KK EK KKK KKK 2. YOW KKKKKKKKKKKKKKKKKKKKKKK KKK k 


Type: SPHINX 
Name: words 
Status: test:3:5 
2 rows in set (0.00 sec) 


甚至 在 使 用 SphinxSE 的 时 候 ， 经 验 法 则 仍然 允许 searchd 执行 排序 、 过 滤 和 分 组 一 一 也 
就 是 说 ， 把 所 有 需要 的 子 句 加 到 查询 字符 串 里 ， 而 不 是 使 用 WHERE, ORDER BY 和 GROUP 
BY。 这 对 于 WHERE 条 件 来 说 尤为 重要 , 其 原因 是 SphinxSE 仅仅 是 searchd 的 一 个 客户 端 ， 
而 不 是 一 个 全 能 的 内 岁 搜 索 库 。 因 此 ， 你 还 是 要 把 所 有 东西 都 传递 给 Sphinx 引擎 以 获得 
最 好 的 性 能 表现 。 


高 级 性 能 控制 
索引 和 搜索 操作 都 会 显著 地 加 重 搜索 服务 器 或 数据 库 服务 器 的 负担 。 幸 运 的 是 ， 有 很 多 
设置 可 用 以 限制 来 自 Sphinx 的 负载 。 


indexer 的 查询 会 引发 不 期 望 的 数据 库 端 负 载 ， 它们 或 者 是 因为 使 用 到 的 锁 彻底 地 减 慢 了 
MySQL 的 运转 速度 ， 或 者 只 是 因为 出 现 得 太 快 而 与 其 他 并 发 查询 竞争 资源 。 


第 一 个 例子 就 是 MyISAM 的 一 个 声名 狼藉 的 问题 ， 当 长 时 间 的 读 锁定 表 时 ， 会 影响 到 其 
他 后 续 的 读 和 写 一 一 你 不 能 简单 地 在 生产 服务 器 上 执行 SELECT * FROM big table, A 
为 会 有 干扰 其 他 所 有 操作 的 风险 。 为 了 绕 开 这 个 问题 ，Sphinx 提供 了 区 间 查 询 。 与 配置 
单个 巨大 查询 不 同 ， 你 可 以 指定 一 个 可 以 快速 计算 可 索引 的 行 区 间 的 查询 ， 以 及 另外 一 
个 以 很 小 的 块 逐 批 往外 拉 数 据 的 查询 。 





sql_query_range = SELECT MIN(id),MAX(id) FROM documents 
sql_range step = 1000 
sql_query = SELECT id, title, body FROM documents \ 
WHERE id>=$start AND id<=$end 
这 个 特性 在 对 MyISAM 表 索 引 的 时 候 非常 有 用 , 但 也 应 该 考虑 到 使 用 InnoDB 表 的 情况 。 
虽然 InnoDB 在 运行 一 个 大 数据 量 SELECT 的 时 候 不 会 锁定 表 ， 也 不 会 延误 其 他 查询 的 执 
行 ,但 是 ,由 于 它 的 MVCC 架构 , 它 还 是 会 使 用 到 很 多 的 机 器 资源 。1 000 个 多 版 本 的 事务 ， 
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每 个 事务 会 涉及 1 000 行 数 据 ， 总 开销 也 小 于 单独 一 个 要 长 时 间 运 行 的 涉及 100 万 行 数 
据 的 事务 。 


第 二 种 加 重负 载 的 可 能 发 生 在 indexer 能 够 比 MySQL 更 快 地 处 理 数 据 时 。 在 这 样 的 情形 
下 ， 也 应 该 使 用 范围 查询 。sqL_ranged throttle 选项 会 强制 indexer 在 后 续 的 查询 步骤 
之 间 休 眠 给 定 的 一 段 时 间 〈 以 训 秒 计算 ) ， 这 虽然 会 增加 索引 建立 的 时 间 ， 但 也 会 减轻 
MySQL 的 负担 。 


如 采 有 足够 兴趣 ， 你 还 可 以 看 一 个 特别 的 案例 ， 配 置 Sphinx 以 达到 相反 效果 : 为 了 缩 
短 索 引 建 立时 间 ， 就 将 更 多 的 负载 加 到 MySQL 上 面 。 当 indexer 和 数据 库 之 间 的 连接 是 
100MB ， 行 都 被 很 好 地 压缩 时 (典型 的 文本 数据 )，MySQL 的 压缩 协议 能 缩短 整体 的 索 
引 时 间 。 随 之 而 来 的 是 另外 一 个 开销 增加 了 : 为 了 压缩 和 解压 缩 网 络 上 传输 的 行 数据 ， 
MySQL 端 和 indexer 端 各 自 都 会 使 用 到 更 多 的 CPU 时 间 。 但 是 ， 整 个 索引 时 间 因 为 减 
少 了 网 络 数据 流量 而 能 够 缩短 20% ~ 30%。 


集群 上 的 搜索 偶尔 也 会 遇 到 过 载 问题 ,因此 ,Sphinx 提供 了 一 些 方法 以 避免 searchd W K. 


首先 ，max_children 选项 可 以 简单 地 限制 一 下 能 够 并 发 运行 的 查询 数量 ， 当 达到 极限 时 
”告诉 客户 端 重 试 。 


其 次 ， 还 有 查询 级 别 的 限制 。 可 以 设 定 查询 运行 的 时 候 ， 或 者 是 在 找到 预定 个 数 的 
匹配 项 时 就 停止 ， 或 者 是 用 完 指 定 长 度 时 间 之 后 就 停止 。 这 两 个 条 件 分 别 通过 调用 
SetLimits() 和 SetMaxQueryTime() API 来 实现 。 这 是 针对 每 一 个 查询 设置 的 ， 所 以 ， 
可 以 确保 更 重要 的 查询 总 是 能 够 彻底 完成 。 


最 后 ,定时 运行 tmdexer 会 引起 额外 VO 的 突 增 , 随 之 会 影响 到 searchd 间歇 性 地 速度 减 慢 。 
为 了 防止 这 种 情况 发 生 ，Sphinx 里 有 相应 的 选项 来 限制 indexer 的 磁盘 I/O, max_iops 
强加 了 两 次 IO 操作 之 间 的 最 小 延迟 时 间 ， 以 确保 每 一 秒 里 不 会 有 超过 max_iops 的 磁盘 
操作 会 被 执行 。 但 是 ， 有 时 一 个 单独 的 操作 也 会 很 占 时 间 ， 比 如 有 一 个 100MB 数据 量 
的 read() 调用 。max_iosize 选项 会 处 理 这 种 情况 ， 它 可 以 保证 每 一 次 磁盘 读 或 者 写 的 
长 度 都 被 限制 在 指定 的 范围 之 内 。 更 大 的 操作 会 被 自动 地 分 解 成 小 型 操作 ， 然 后 ， 这 些 
小 型 的 操作 由 max_iops 设置 控制 。 


实际 应 用 案例 


每 个 描述 的 特性 都 可 以 在 产品 部 署 中 成 功 找 到 。 下 面 的 小 市 回顾 了 几 个 现实 的 Sphinx 部 
署 ， 人 简要 描述 了 网 站 的 情况 和 一 些 实现 细 市 。 
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Mininova.org 上 的 全 文 搜索 

Mininova (http://www.mininova.org) 是 一 个 流行 的 BT 种 子 搜索 引擎 ， 它 清楚 地 展示 了 
如 何 “ 仅 仅 ” 优 化 全 文 检索 。Sphinx 替代 了 几 个 基于 MySQL 主 从 复制 的 备 库 内 建 的 全 
文 索引 的 MySQL， 因 为 它们 不 能 很 好 地 处 理 负载 。 替 换 之 后 ， 搜 索 服 务 器 负载 很 轻 ， 
当前 平均 负载 在 0.3~04。 


数据 库 规模 和 负载 量 如 下 。 


e 网 站 的 数据 库 很 小 ， 大 概 30 万 ~50 万 条 记录 ，300MB~500MB 索引 量 。 
e 网 站 的 负载 非常 高 : 在 写作 本 书 的 时 候 每 天 大 约 800 万 ~1000 万 次 查询 。 


数据 绝 大 部 分 是 由 用 户 提供 的 文件 名 ， 常 常 没有 合适 的 标记 符号 。 因 为 这 个 原因 ， 采 用 
了 前 绥 索 引 而 不 是 整 词 索 3|。 结 果 索 引 比 不 这 样 做 要 大 好 几 倍 ， 但 仍然 足够 小 ， 可 以 快 
速 地 构建 ， 并 且 数 据 可 以 高 效 地 缓存 。 


对 1 000 个 最 频繁 的 查询 的 搜索 结果 在 应 用 端 缓存 起 来 。 总 查询 中 有 大 概 20%~30% 由 
缓存 提供 服务 。 由 于 “长 尾 ” 查 询 分 布 ， 缓 存 再 大 一 些 并 不 会 起 太 多 作用 。 


为 了 高 可 用 ， 网 站 使 用 两 个 服务 器 和 一 个 完整 的 全 文 索引 复制 服务 器 。 索 引 每 隔 几 分 钟 

从 头 重建 。 建 索引 耗 时 小 于 一 分 钟 ， 因 此 构建 更 复杂 的 模式 没有 意义 。 

下 面 是 从 这 个 案例 中 学 到 的 ， 

© 在 应 用 中 缓存 结果 非常 有 帮助 。 

e 巨大 的 缓存 可 能 设 有 必要 ， 甚 至 对 繁忙 的 应 用 也 是 如 此 。 只 需要 1000~10000 个 条 
目 就 足够 了 。 


。 对 于 近 1GB 大 小 的 数据 库 ， 简 单 周 期 性 地 重建 索引 而 不 是 创建 更 复杂 的 模式 是 没有 
问题 的 ， 即 使 对 于 繁忙 的 网 站 也 是 如 此 。 


BoardReader.com 上 的 全 文 搜索 


Mininova 是 个 负载 格外 高 的 项 目 和 案例 一 一 数据 量 不 是 太 多 ， 但 有 许多 对 数据 的 查询 。 
BoardReader (http://www.boardreader.com) 恰好 相反 : 一 个 论坛 搜索 引擎 ， 在 非常 大 的 
数据 集中 执行 非常 少量 的 查询 。Sphinx 替代 了 商业 的 全 文 搜索 引擎 ， 对 1GB 的 数据 集 
合 每 次 查询 将 需 10s, Sphinx 可 使 BoardReader 在 数据 量 和 查询 的 吞吐 量 上 很 好 地 扩展 。 


下 面 是 一 些 常 规 信息 。 


© 在 数据 库 中 有 10 亿 个 文档 和 1.5TB 的 文本 。 
© 有 大 概 50 万 个 页 面 视 图 ， 每 天 的 查询 量 在 70 万 ~100 万。 
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在 写作 本 书 的 时 候 ， 搜索 集群 由 6 台 服 务 器 组 成 ， 每 全 有 4 个 逻辑 CPU (两 个 Xeon 双 
核 )， 有 16GB 的 RAM 和 0.5TB 的 磁盘 空间 。 数 据 库 本 身 存 储 在 一 个 分 开 的 集群 上 。 搜 
索 集 群 只 用 来 做 索引 和 搜索 。 


6 台 服 务 器 中 每 台 有 4 个 searchd 实例 ， 因 此 所 有 4 个 核 都 被 使 用 。4 个 实例 其 中 之 一 
聚集 了 其 他 三 个 上 的 结果 。 总 共 24 个 searchnd 实例。 数据 在 它们 中 间 平 均 分 布 。 每 个 
searchd 副本 携带 几 个 索引 ， 大 概 超过 总 数据 的 1/24 (大 约 60GB). 


来 自 6 个 “第 一 层 ”searchd 节点 的 搜索 结果 由 另外 一 个 运行 在 Web 服务 器 前 端的 
searchd 实例 所 聚集 。 这 个 实例 只 携带 几 个 纯 分 布 的 索引 ， 指 向 6 个 搜索 集群 服务 器 ,但 
本 地 并 没有 数据 。 


为 什么 每 个 节点 上 要 有 4 个 searchd 实例 ?为 什么 不 是 每 个 服务 器 上 只 一 个 searchd X 
例 ， 配 置 它 运 载 4 个 索引 块 ， 自 己 和 自己 通信 ， 就 像 远程 服务 器 那样 来 利用 多 核 CPU， 
一 如 我 们 之 前 建议 的 那样 ? 有 四 个 实例 而 不 是 一 个 有 它 的 好 处 。 首 先 ， 它 减少 了 启动 时 
H. AJLA GB 的 属性 数据 需要 预先 加 载 到 RAM 中 ; 在 同一 时 间 启 动 几 个 后 台 进 程 可 
以 并 行 执行 。 其 次 ， 这 可 增加 可 用 性 。 在 searchd 失败 或 更 新 的 情形 下 ， 整 个 索引 中 只 
有 1/24 不 可 访问 ， 而 不 是 1/6。 


在 搜索 集群 的 24 个 实例 里 ， 我 们 使 用 基于 时 间 的 分 片 来 进一步 减少 负载 量 。 许 多 查询 
只 需 和 运行 在 最 近 的 数据 之 上 上， 因此， 数据 可 以 被 分 成 3 个 不 相交 的 索引 集 : 最 近 一 个 星 
期 的 数据 、 最 近 3 个 月 的 数据 和 全 部 数据 。 这 些 索 引 分 布 在 每 个 实例 所 在 服务 器 的 几 块 
物理 磁盘 上 。 通 过 这 个 方法 ， 每 个 实例 都 拥有 了 自己 的 CPU 和 物理 磁盘 驱动 器 ， 且 互 不 
干扰 。 

本 地 的 cron 任务 会 定时 更 新 索引 ， 跨 网 络 从 MySQL 上 拉 数 据 ， 但 是 只 在 本 地 创建 索引 
XIF, 


使 用 几 块 明确 独立 的 “ 裸 ”磁盘 被 证 明快 于 单独 的 RAID 卷 。 裸 磁盘 能 够 控制 哪 一 些 文 
件 存储 到 哪 块 物理 磁盘 上 ， 而 在 RAID 里 却 不 一 样 ， 控 制 器 将 决定 哪 一 个 数据 块 存储 在 
哪 一 块 物理 磁盘 上 。 裸 磁盘 也 能 保证 在 不 同 的 索引 块 上 充分 使 用 并 行 JO， 但 基于 RAID 
的 并 发 查询 仍然 受制 于 VO 层级 。 我 们 在 此 处 选择 的 是 没有 元 余 的 RAID 0， 这 是 因为 我 
们 不 关心 磁盘 故障 , 我 们 可 以 在 搜索 节点 很 方便 地 重建 索引 。 当 需要 提高 可 靠 性 时 ， 也 
可 以 使 用 几 个 RAID 1 (镜像 ) 卷 提 供 跟 裸 盘 相同 的 吞吐 量 。 


. 从 BoardReader 那里 了 解 到 的 另 一 个 有 趣 的 事情 是 Sphinx 版 本 升级 是 如 何 执行 的 。 显 然 ， 
整个 集群 是 不 可 能 停 掉 的 ， 因 此 ， 向 后 兼容 非常 重要 。 幸 运 的 是 ，Sphinx 提供 了 这 个 功 
新 版 本 的 searchd 一 般 都 能 读 出 旧版 本 的 索引 文件 ， 也 总 能 跨 网 络 跟 旧 的 客户 端 





St, 
Ht 
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通信 。 要 注意 的 是 第 一 层 上 用 来 聚集 搜索 结果 的 节点 对 于 第 二 层 节 点 而 言 就 像 客户 端 ， 
而 由 第 二 层 节点 执行 实际 的 大 多 数 搜索 。 所 以 ， 第 二 层 上 的 节点 首先 升级 ， 然 后 是 第 一 
层 上 的 节点 9 最 后 才 是 Web Bl tit o 


在 本 例 中 学 到 的 经 验 如 下 。 


© 对 于 超大 型 数据 库 的 格言 是 : DH, DH, DH, HA. 
© 在 大 规模 的 搜索 应 用 里 ， 组 织 searchd 为 多 层 树 状 结构 。 
© 尽 可 能 地 针对 全 部 数据 的 一 小 部 分 建立 优化 的 索引 。 
。 ”明确 地 将 文件 映射 到 磁盘 而 不 是 依靠 RAID 控制 器 。 


Sahibinden.com 对 SELECT 的 优化 

Sahibinden (http:/www.sahibinden.com) 是 土耳其 一 家 领先 的 在 线 拍卖 网 站 ， 存 在 着 大 
量 的 性 能 问题 ， 包 括 全 文 搜索 性 能 。 在 部 署 了 Sphinx 并 对 查询 做 了 一 些 分 析 之 后 ， 我 们 
REL Sphinx 高 频 执行 应 用 相关 的 过 滤 查 询 ， 要 比 MySQL 快 许多 一 一 即使 在 MySQL 中 
有 对 相关 列 的 索引 。 另 外 ， 运 用 Sphinx 于 非 全 文 搜索 时 ， 可 产生 易于 编写 和 支持 的 统一 
的 应 用 代码 。 

MySQL 的 表现 不 佳 是 因为 每 个 单独 列 的 选择 性 不 足以 明显 地 缩小 搜索 空间 。 事 实 上 ， 
要 创建 和 维护 所 有 需要 的 索引 几乎 不 可 能 ， 因 为 有 太 多 的 列 需 要 它们 。 产 品 信息 表 大 约 
有 100 个 列 ， 从 技术 上 讲 ，Web 应 用 可 能 使 用 任 一 列 来 过 滤 或 排序 。 


在 这 个 “热门 ”的 产品 表 上 的 插入 和 更 新 都 是 龟 速 ， 因 为 有 太 多 的 索引 需要 随 之 更 新 。 


基于 这 些 原因 ， 要 应 付 产品 信息 表 上 的 所 有 SELECT 查询 ， 而 不 仅仅 是 全 文 搜索 查询 ， 
Sphinx 就 是 一 个 目 然 的 选择 。 


网 站 数据 库 的 大 小 和 负载 量 如 下 。 


e。 数据库 里 包含 了 大 约 400 000 行 记录 ，500MB 数据 。 
© 负载 量 大 约 是 每 天 300 万 个 查询 。 


为 了 模拟 普通 的 带 WHERE 条 件 的 SELECT 查询 ，Sphinx 在 建 索 引 过 程 中 把 一 些 特别 的 关 


键 字 写 在 全 文 索 引 里 。 这 些 关键 字 都 形 如 _ _CATN ， 这 里 的 认可 以 用 相应 的 分 类 ID 


来 代替 。 这 个 替代 发 生 在 MySQL 查询 中 运行 带 CONCAT() 函数 的 索引 之 时 ， 因 此 源 数据 
不 会 被 修改 。 


索引 需要 尽 可 能 频繁 地 重建 。 我 们 是 固定 每 分 钟 重 建 一 次 。 在 多 CPU 环境 里 每 次 重建 的 
时 间 是 9 ~ 1$s， 因 此 ， 早 先 讨 论 过 的 maintdelta 方案 是 不 需要 的 。 
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实践 证 明 ，PHP API 在 解析 带 有 大 量 属性 的 结果 集 时 ， 会 花费 相当 数量 的 时 间 (每 个 查 
询 大 约 7 ~ 9ms)。 通 常 ， 这 个 开销 不 会 构成 问题 ， 因 为 全 文 搜索 的 开销 ， 特 别 是 在 大 数 
据 集 上 执行 时 ， 会 高 于 这 个 解析 。 为 了 能 减少 这 个 因素 的 影响 ， 索 引 被 分 隔 成 一 对 对 的 : 
轻 量 ” 的 有 34 个 常用 的 属性 ， 而 “完整 ”的 有 全 部 99 个 属性 。 


其 他 可 能 的 解决 办 法 是 使 用 SphinxSE 或 者 实现 一 个 能 够 把 特定 的 列 读 到 Sphinx 里 的 功 
能 。 然 而 ， 使 用 两 个 索引 的 方法 是 目前 实现 起 来 最 快 的 ， 时 间 也 是 重要 因素 。 


以 下 是 我 们 从 这 个 案例 里 学 到 的 经 验 。 


e Akf, Sphinx 上 的 全 扫描 的 执行 效率 要 好 过 MySQL 的 索引 读 取 。 
。 ”对 于 选择 性 条 件 , 用 “ 伪 关 键 字 ” 代 替 属 性 过 滤 之 后 ,全 文 搜索 引擎 能 做 更 多 的 工作 。 
。 ”脚本 语言 里 的 API 在 某 些 极端 但 现实 的 条 件 下 可 能 会 成 为 性 能 瓶颈 。 


BoardReader.com 对 GROUP BY 的 优化 


对 BoardReader 服务 的 改进 需要 统计 超 链 接 数 ， 并 且 要 根据 关联 数据 创建 不 同 的 报表 。 
例如 ， 报 表 之 一 就 是 要 显示 出 最 近 一 个 星期 来 链接 数 排 在 最 前 面 的 NN 个 二 级 域名 。 另 外 
一 个 统计 链接 到 指定 站 点 例如 YouTube 的 最 前 面 N 个 二 级 和 三 级 域名 。 用 来 创建 这 些 报 
表 的 查询 具有 下 列 这 些 常见 特征 。 


。 它们 总 是 按 域 来 分 组 的 。 

。 它们 按 每 个 组 里 的 链接 数 排序 ， 或 者 是 以 每 个 组 里 的 唯一 域名 的 链接 数 。 

。 ”它们 要 处 理 大 量 的 数据 (接近 几 百 万 行 记 录 )， 但是， 最 后 生成 的 带 有 最 佳 分 组 的 结 
果 集 往往 又 很 小 。 

。 近似 的 结果 也 能 接受 。 

在 原型 测试 环节 里 , MySQL 大 概 花 了 300s 来 执行 这 些 查 询 。 理 论 上 ,通过 数据 分 片 技 术 ， 

把 它们 分 拆 到 各 个 服务 器 执行 ， 再 在 应 用 里 用 人 工 方 式 诊 合 查询 结果 ， 还 可 能 将 这 些 查 

询 的 时 间 优 化 到 10s 左右 。 但 是 ， 这 需要 构建 一 个 复杂 的 架构 ， 即 使 分 片 的 实现 也 远 不 

是 那么 直接 明了 。 


因为 已 经 成 功 地 使 用 Sphinx 对 搜索 负载 进行 过 分 布 式 处 理 ， 所 以 ， 我 们 决定 还 使 用 
Sphinx 来 实现 一 个 近似 的 分 布 式 的 GROUP BY, 这 就 要 求 在 建立 索引 之 前 预 处 理 这 些 数据 ， 
把 所 有 感 兴趣 的 子 串 转换 为 单独 的 “词语 ”以 下 就 是 一 个 示例 URL 在 预 处理 前 后 的 样子 。 


source url = http://my.blogger.com/my/best-post.php 
processed url = my$blogger$com, blogger$com, my$blogger$com$my, 
my$blogger$com$my$best, my$blogger$com$my$best$post. php 


美元 符号 ($) 仅仅 是 对 URL 分 隔 符 统一 的 替换 ， 这 样 搜索 就 能 工作 在 任何 URL 部 分 ， 
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域 或 者 路 径 。 这 种 预 处 理 能 析 取 所 有 “ 感 兴趣 ”的 子 串 成 为 单独 的 关键 字 ， 这 样 搜索 起 
来 是 最 快 的 。 从 技术 上 说 ， 我 们 可 以 采用 短语 查询 或 者 前 缀 索引 ， 但 那些 都 会 导致 更 大 
WRS, HELBER. 


链接 是 在 构建 索引 时 预 处理 的 ， 使 用 了 特定 的 MySQL UDF。 在 这 个 任务 里 ， 我 们 还 定 
制 了 一 个 计算 唯一 性 值 的 功能 用 来 加 速 Sphinx。 在 此 之 后 ， 我 们 就 能 把 查询 全 部 移 到 搜 
索 集 群 里 ， 简 单 地 分 发 ， 同 时 明显 减少 查询 延迟 。 


数据 库 的 大 小 和 负载 量 如 下 。 


© 里 面 约 有 1.5 亿 ~2 亿 行 记录 ， 预 处 理 之 后 会 生成 50~100GB 数据 。 
© 负载 是 每 天 大 概 60 000~100 000 个 GROUP BY 查询 。 


用 于 分 布 的 GROUP BY 的 索引 也 是 部 署 在 先前 我 们 提 到 的 同一 个 搜索 集群 上 一 一 有 着 6 台 
机 器 ，24 个 逻辑 CPU。 相 对 存储 了 1.5TB 文本 的 数据 库 而 言 ， 这 只 是 主要 搜索 负载 的 
一 个 零头 。 


Sphinx 替代 了 MySQL 的 精确 、 缓 慢 、 单 CPU 的 计算 方式 ， 转 而 用 近似 、 快 速 、 分 布 
式 的 计算 方式 。 所 有 会 引入 近似 错误 的 因素 都 会 存在 : 输入 数据 常常 包含 太 多 的 行 ， 以 
至 于 无 法 放 入 “排序 缓冲 区 ”里 (我 们 使 用 的 是 一 个 固定 的 10 万 行 的 RAM) ， 我 们 使 
用 了 COUNT(DISTINCT) ， 结 果 集 是 通过 网 络 聚合 的 。 除 此 以 外 ， 对 于 结果 集 里 的 前 10 ~ 
1000 组 一 一 这 常常 是 报表 实际 所 需 的 一 一 能 够 有 99% ~ 100% 的 准确 率 。 


索引 的 数据 跟 普通 全 文 搜索 用 的 数据 很 不 一 样 。 它 里 面 有 巨额 的 文档 和 关键 字 ， 尽 管 文 
档 都 非常 小 。 文 档 的 编号 也 是 非 连 续 的 ， 因 为 它 使 用 的 是 一 种 特殊 的 编号 约定 (综合 了 
源 服务 器 、 源 表 和 主键 )， 因 而 无 法 用 32 位 来 存储 。 巨 大 数量 的 搜索 “关键 字 ” 也 会 引 
发 频繁 的 CRC32 PX (Sphinx 用 CRC32 把 关键 字 映 射 到 内 部 词语 的 ID )。 因 为 这 些 原因 ， 
我 们 只 能 被 迫 在 内 部 到 处 使 用 64 位 的 标识 符 。 


系统 目前 的 性 能 很 让 人 注意 。 对 于 最 复杂 的 域名 ,完成 一 次 查询 的 时 间 通 常 是 0.1 ~ 1.0s。 
以 下 就 是 从 这 个 案例 里 学 到 的 经 验 。 

e 对 于 GROUP BY 查询， 可 以 牺牲 掉 一 些 精度 以 获取 更 快 的 速度 。 

© 对 于 大 量 文本 的 集合 或 者 适当 大 小 的 特殊 数据 集 ， 可 能 要 用 64 位 标识 符 。 


Grouply.com 对 联接 查询 的 优化 
Grouply (http://www.grouply.com) 构建 了 一 个 基于 Sphinx 的 解决 方案 来 搜索 几 百 万 行 
的 标签 信息 数据 库 ， 其 中 利用 了 Sphinx 的 MVA 支持 。 为 了 高 可 扩展 性 ， 数 据 库 被 分 解 
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到 许多 物理 服务 器 上 ， 因 而 对 跨 不 同 服务 器 的 表 的 查询 是 必需 的 。 然 而 任意 大 规模 的 联 
接 是 不 可 能 的 ， 因 为 会 有 太 多 的 服务 器 、 数 据 库 和 表 参 与 执行 。 


Grouply 使 用 Sphinx 的 MVA 特性 来 存储 消息 标签 。 标 签 列表 通过 PHP 的 API 从 Sphinx 
集群 中 获取 。 这 替代 了 从 MySQL 服务 器 来 的 多 个 顺序 的 SELECT。 同 时 ， 为 了 减少 SQL 
查询 的 数量 ， 某 些 特定 用 于 展现 的 数据 (例如 ， 最 后 读 取 消息 的 一 小 部 分 用 户 的 列表 ) 
同样 存储 在 单独 的 MVA 属性 中 ， 并 且 通 过 Sphinx 访问 。 


这 里 有 两 项 创新 点 : 使 用 了 Sphinx 预先 构建 JOIN 结果 ， 并 且 使 用 分 布 式 功 能 合并 了 分 
散在 各 个 数据 块 上 的 数据 。 只 使 用 MySQL 是 不 可 能 做 到 这 些 的 。 高 效 的 归并 要 求 数据 
能 够 分 拆 到 尽 可 能 少 的 物理 服务 器 和 表 上 ， 但 这 又 会 损害 可 扩展 性 和 可 扩充 性 。 


从 本 案例 中 学 到 的 经 验 如 下 。 


。 Sphinx 能 够 用 于 有 效 地 聚合 高 度 分 区 化 的 数据 。 
e MVA 能 够 用 于 存储 和 优化 预先 构建 的 JOIN 结果 。 


总 结 


ICA =A 


在 本 附录 里 ， 我 们 只 是 简要 地 讨论 了 Sphinx 全 文 搜索 系统 。 为 了 缩短 篇 幅 ， 我 们 特意 略 
过 了 关于 Sphinx 其 他 许多 功能 特性 的 讨论 ， 例 如 对 HTML 索引 的 支持 、 对 MyISAM 有 
更 好 支持 的 范围 搜索 、 词 法 和 同义词 的 支持 、 前 级 和 中 缀 索引 以 及 CJK 索引 。 不 过 ， 这 
个 附录 应 该 已 经 给 了 你 一 些 关 于 Sphinx 如 何 高 效 解 决 真实 世界 各 种 问题 的 启发 。 它 并 不 
限于 做 全 文 搜索 ， 还 能 解决 许多 传统 SQL 的 老 难题 。 


Sphinx 既 不 是 一 颗 银 弹 ， 也 不 是 MySQL 的 一 个 替代 品 ， 但 是 在 许多 应 用 案例 里 (F 
现代 Web 应 用 已 经 变 得 很 常见 ) ， 它 可 以 被 当 作 MySQL 很 有 用 的 补充 。 你 可 以 简单 地 
用 它 来 减轻 一 些 工作 的 负担 ， 甚 至 为 你 的 应 用 创造 新 的 可 能 性 。 


你 可 以 从 http://www.sphinxsearch.com 下 载 Sphinx, 另外 , 别 忘 记分 享 你 自己 的 使 用 心得 。 
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explicit locking, 11 
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failback, 582 
failover, 449, 582, 585 
failures, mean time between, 570 
Falcon storage engine, 22 
fallback, 582 
fast warmup feature, 351 
FathomDB, 602 
FCP (Fibre Channel Protocol), 422 
fdatasync() function, 362 
Federated storage engine, 20 
Fedora, 683 
fencing, 584 
fetching mistakes, 203 
Fibre Channel Protocol (FCP), 422 
FIELD() function, 124, 128 
FILE () function, 600 
FILE I/O, 702 
files 
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copying, 715 
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transferring large, 715—718 
filesort, 226, 377 
filesystems, 432-434, 573, 640-648 
filtered column, 732 
filtering, 190, 466, 564, 750, 761 
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first-write penalty, 595 
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fixed allocation, 541—543 
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flash storage, 400—414 
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FLOOR( function, 260 

FLUSH LOGS command, 492, 630 
FLUSH QUERY CACHE command, 325 
FLUSH TABLES WITH READ LOCK 
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flushing binary logs, 663 
flushing log buffer, 360, 703 
flushing tables, 663 
FOR UPDATE hint, 240 
FORCE INDEX hint, 240 
foreign keys, 129, 281, 329 
Forge, MySQL, 667, 710 
FOUND_ROWS() function, 240 
fractal trees, 22, 158 
fragmentation, 197, 320, 322, 324 
free space fragmentation, 198 
FreeBSD, 431, 640 
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frm file, 14, 142, 354, 711 
FROM_ UNIXTIME function, 126 
fsync() function, 314, 362, 368, 656, 693 
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Sphinx storage engine, 749 
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gdb tool, 99—100 
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GET_LOCK( function, 256, 288 
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H 


Hadoop, 620 

handler API, 228 

handler operations, 228, 265, 690 
HandlerSocket, 618 


HAProxy, 556 , 
hard disks, choosing, 398 
hardware and software RAID, 418 
hardware threads, 388 
hash codes, 152 
hash indexes, 21, 152 
hash joins, 234 
Haversine formula, 259 
header, 693 
headroom, 573 
HEAP tables, 20 
heartbeat record, 487 
HEX() function, 130 
Hibernate Core interfaces, 547 
Hibernate Shards, 547 
high availability 
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failover and failback, 581—585 
High Availability Linux project, 582 
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high throughput, 389 
HIGH_PRIORITY hint, 238 
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HiveDB, 547 

hot data, segregating, 269 
“hot” online backups, 17 
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HTTP proxy, 585 

http_load tool, 51, 54 
Hutchings, Andrew, 298 
Hyperic HQ, 669 
hyperthreading, 389 
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InnoDB, 357—363 
MyISAM, 369-371 
performance, 595 
slave thread, 450 
I/O-bound machines, 443 
laaS (Infrastructure as a Service), 589 
.ibd files, 356, 366, 648 
Icinga, 668 
id column, 723 
identifiers, choosing, 129-131 
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idle machine’s vmstat output, 444 
IFQ function, 254 
IfP (instrumentation-for-php), 78 
IGNORE INDEX hint, 165, 240 
implicit locking, 11 
INQ function, 190-193, 219, 260 
incr() function, 546 
incremental backups, 630 
„index files, 464 
index-covered queries, 178—181 
indexer, Sphinx, 756 
indexes 
benefits of, 158 
case study, 189-194 
clustered, 168-176 
covering, 177—182 
and locking, 188 
maintaining, 194—198 
merge optimizations, 234 
and mismatched PARTITION BY, 270 
MyISAM storage engine, 143 
order of columns, 165—168 
packed (prefix-compressed), 184 
reducing fragmentation, 197 
redundant and duplicate, 185-187 
and scans, 182-184, 269 
statistics, 195, 220 
strategies for high performance, 159-168 
types of, 148-158 
unused, 187 
INET_ATON(O function, 131 
INET_NTOAQO function, 131 
InfiniDB, Calpont, 23 
info() function, 195 
Infobright, 22, 28, 117, 269 
INFORMATION_SCHEMA tables, 14, 110, 
297, 499, 742-744 
infrastructure, 617 
Infrastructure as a Service (IaaS), 589 
Ingo, Henrik, 515, 683 
inner joins, 216 
Innobase Oy, 30 
InnoDB, 13, 15 
advanced settings, 383-385 
buffer pool, 349, 711 
concurrency configuration, 372 
crash recovery, 655-658 
data dictionary, 356, 711 
data layout, 172—176 
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Data Recovery Toolkit, 195 
and deadlocks, 9 
and filesystem snapshots, 644—646 
flushing algorithm, 412 
Hot Backup, 457, 658 
I/O configuration, 357—363, 411 
lock waits in, 740-744 
log files, 411 
and query cache, 326 
release history, 16 
row locks, 188 
tables, 710, 742 
tablespace, 364 
transaction log, 357, 496 
InnoDB locking selects, 503 
innodb variable, 383 
InnoDB-specific variables, 692 
innodb_adaptive_checkpoint variable, 412 
innodb_analyze_is_persistent variable, 197, 
356 
innodb_autoinc_lock_mode variable, 177, 
384 
innodb_buffer_pool_instances variable, 384 
innodb_buffer_pool_size variable, 348 
innodb_commit_concurrency variable, 373 
innodb_concurrency_tickets variable, 373 
innodb_data_file_path variable, 364 
innodb_data_home_dir variable, 364 
innodb_doublewrite variable, 368 
innodb_file_io_threads variable, 702 
innodb_file_per_table variable, 344, 362, 365, 
414, 419, 648, 658 
innodb_flush_log_at_trx_commit variable, 
360, 364, 369, 418, 491, 508 
innodb_flush_method variable, 344, 361, 419, 
437 
innodb_flush_neighbor_pages variable, 412 
innodb_force_recovery variable, 195, 657 
innodb_io_capacity variable, 384, 411 
innodb_lazy_drop_table variable, 366 
innodb_locks_unsafe_for_binlog variable, 
505, 508 
innodb_log_buffer_size variable, 359 
innodb_log_files_in_group variable, 358 
innodb_log_file_size variable, 358 
innodb_max_dirty_pages_pct variable, 350 
innodb_max_purge_lag variable, 367 
innodb_old_blocks_time variable, 385 
innodb_open_files variable, 356 
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innodb_read_io_threads variable, 385, 702 

innodb_recovery_stats variable, 359 
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innodb_stats_on_metadata variable, 197, 356 


innodb_stats_sample_pages variable, 196 

innodb_strict_mode variable, 385 

innodb_support_xa variable, 314, 330 

innodb_sync_spin_loops variable, 695 

innodb_thread_concurrency variable, 101, 
372 

innodb_thread_sleep_delay variable, 372 


innodb_use_sys_stats_table variable, 197, 356 


innodb_version variable, 742 
innodb_write_io_threads variable, 385, 702 
innotop tool, 500, 672, 693 
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insert buffer, 413, 703 
INSERT command, 267, 278 
INSERT ON DUPLICATE KEY UPDATE 
command, 252, 682 
insert-to-select rate, 323 
inspecting server status variables, 346 
INSTEAD OF trigger, 278 
instrumentation, 73 
instrumentation-for-php (IfP), 78 
INT type, 117 
integer computations, 117 
integer types, 117, 130 
Intel X-25E drives, 404 
Intel Xeon X5670 Nehalem CPU, 598 
interface tools, 665 
intermittent problems, diagnosing, 92 
capturing diagnostic data, 97-102 
case study, 102-110 
single-query versus server-wide problems, 
93—96 
internal concurrency issues, 391 
internal XA transactions, 314 
intra-row fragmentation, 198 
introducers, 300 
invalidation on read, 615 
ionice, 626 
iostat, 438—442, 591, 646 
IP addresses, 560, 584 
IP takeover, 583 
ISNULLO function, 254 
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isolation, 7 
iterative optimization by benchmarking, 338 
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joins, 132, 234 
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execution strategy, 220 
JOIN queries, 244 
optimizers for, 223—226 

journaling filesystems, 433 
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key block size, 353 
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L-values, 250 

lag, 484, 486, 507-511 
Lahdenmaki, Tapio, 158, 204 
LAST( function, 255 
LAST_INSERT_ID(Q) function, 239 
latency, 38, 398, 576 

LATEST DETECTED DEADLOCK, 697 
LATEST FOREIGN KEY ERROR, 695 
Launchpad, 64 

lazy UNIONS, 254 

LDAP authentication, 298 
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LEAST() function, 254 

LEFT JOIN queries, 219 

LEFT OUTER JOIN queries, 231 
left-deep trees, 223 

Leith, Mark, 712 

LENGTH( function, 254, 304 
lighttpd, 608 

lightweight profiling, 76 

LIMIT query, 218, 227, 246 
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limited replication bandwidth, 511 
linear scalability, 524 
“lint checking”, 249 
Linux Virtual Server (LVS), 449, 556, 560 
Linux-HA stack, 582 
linuxthreads, 435 
Little’s Law, 441 
load balancers, 561 
load balancing, 449, 555-565 
LOAD DATA FROM MASTER command, 
457 : 
LOAD DATA INFILE command, 79, 301, 504, 
508, 511, 600, 651 
LOAD INDEX command, 272, 352 
LOAD TABLE FROM MASTER command, 
457 
LOAD_FILE() function, 281 
local caches, 612 
local shared-memory caches, 613 
locality of reference, 393 
lock contention, 503 
LOCK IN SHARE MODE command, 240 
LOCK TABLES command, 11, 632 
lock time, 626 
lock waits, 735, 740-744 
lock-all-tables variable, 457 
lock-free InnoDB backups, 644 
locks 
debugging, 735-744 
granularities, 4 
implicit and explicit, 11 . 
read/write, 4 
row, 5 
table, 5 
log buffer, 358-361 
log file coordinates, 456 
log file size, 344, 358-361, 411 
log positions, locating, 492 
log servers, 481, 654 
log threads, 702 
log, InnoDB transaction, 703 
logging, 10, 25 
logical backups, 627, 637-639, 649-651 
logical concurrency issues, 391 
logical reads, 395 
logical replication, 460 
logical unit numbers (LUNs), 423 
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LONGBLOB type, 122 

LONGTEXT type, 122 

lookup tables, 20 

loose index scans, 235 

lost time, 74 

low latency, 389 

LOW_PRIORITY hint, 238 

Lua language, 53 

Lucene, 313 

LucidDB, 23 

LUNs (logical unit numbers), 423 

LVM snapshots, 434, 633, 640-648 

lvremove command, 643 

LVS (Linux Virtual Server), 449, 556, 560 

lzo, 626 


M 


Maatkit (see Percona Toolkit) 

maintenance operations, 271 

malloc() function, 319 

manual joins, 606 

mapping tables, 20 

MariaDB, 19, 484, 681 

master and replicas, 468, 474, 564 

master shutdown, unexpected, 495 

master-data variable, 457 

master-master in active-active mode, 469 

master-master in active-passive mode, 471 

master-master replication, 473, 505 

master.info file, 459, 464, 489, 496 

Master_Log_File, 491 

MASTER_POS_WAIT() function, 495, 564 

MATCH() function, 216, 306, 307, 311 

materialized views, 138, 280 
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MAX() function, 217, 237, 292 
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max_connect_errors variable, 381 
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mbox mailbox messages, 3 

MBRCONTAINS( function, 157 
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MD50 function, 53, 130, 156, 507 
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mean time between failures (MTBF), 569 
mean time to recover (MTTR), 569-572, 576, 
582, 586 
measurement uncertainty, 72 
MEDIUMBLOB type, 122 
MEDIUMINT type, 117 
MEDIUMTEXT type, 122 
memcached, 533, 546, 613, 616 
Memcached Access, 618 
memory 
allocating for caches, 349 
configuring, 347-356 
consumption formula for, 341 
InnoDB buffer pool, 349 
InnoDB data dictionary, 356 
limits on, 347 
memory-to-disk ratio, 397 
MyISAM key cache, 351-353 
per-connection needs, 348 
pool, 704 
reserving for operating system, 349 
size, 595 
Sphinx RAM, 751 
table cache, 354 
thread cache, 353 | 
Memory storage engine, 20 
Merge storage engine, 21 
merge tables, 273-276 
merged read and write requests, 440 
mget() call, 616 
MHA toolkit, 581 
middleman solutions, 560-563, 584 
migration, benchmarking after, 46 
Millsap, Cary, 70, 74, 341 
MINO function, 217, 237, 292 
Mininova.org, 764 
mk-parallel-dump tool, 638 
mk-parallel-restore tool, 638 
mk-query-digest tool, 72 
mk-slave-prefetch tool, 510 
MLC (multi-level cell), 402, 407 
MMM replication manager, 572, 580 
mod_log. config variable, 79 
MonetDB, 23 
Monitis, 671 
monitoring tools, 667—676 
MONyog, 671 
mpstat tool, 438 


MRTG (Multi Router Traffic Grapher), 430, 
669 
MTBF (mean time between failures), 569 
mtop tool, 672 
MTTR (mean time to recovery), 569-572, 576, 
582, 586 
Mulcahy, Lachlan, 659 
Multi Router Traffic Grapher (MRTG), 430, 
669 
multi-level cell (MLC), 402, 407 
multi-query mechanism, 753 
multicolumn indexes, 163 
multiple disk volumes, 427 
multiple partitioning keys, 537 
multisource replication, 470, 480 
multivalued attributes, 757, 761 
Munin, 670 
MVCC (multiversion concurrency control), 12, 
551 | 
my.cnf file, 452, 490, 501 
.MYD file, 371, 633, 648 
mydumper, 638, 659 
.MYI file, 633, 648 
MyISAM storage engine, 17 
and backups, 631 
concurrency configuration, 18, 373 
and COUNT() queries, 242 
data layout, 171 
delayed key writes, 19 
indexes, 18, 143 
key block size, 353 
key buffer/cache, 351-353, 690 
performance, 19 
tables, 19, 498 
myisamchk, 629 
myisampack, 276 
mylvmbackup, 658, 659 
MySQL 
concurrency, 371-374 
configuration mechanisms, 332-337 
development model, 33 
GPL-licensing, 33 
logical architecture, 1 
proprietary plugins, 33 
Sandbox script, 456, 481 
version history, 29-33, 182, 188 
MySQL 5.1 Plugin Development (Golubchik & 
Hutchings), 298 
MySQL Benchmark Suite, 52, 55 
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MySQL Enterprise Backup, 457, 624, 627, 631, 
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MySQL Enterprise Monitor, 80, 670 

MySQL Forge, 667, 710 
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mysql-bin.index file, 464 
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mysqladmin, 666, 686 

mysqlbinlog tool, 460, 481, 492, 654 

mysqlcheck tool, 629, 666 

mysqld tool, 99, 344 

mysqldump tool, 456, 488, 623, 627, 637, 660 

mysqlhotcopy tool, 658 

mysqlimport tool, 627, 651 

mysqlslap tool, 51 

mysql_query() function, 212, 292 

mysql_unbuffered_query() function, 212 

mytop tool, 672 
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Nagios System and Network Monitoring 
(Barth), 643, 668 

name locks, 736, 739 l 

NAS (network:attached storage), 422—427 

NAT (network address translation), 584 

Native POSIX Threads Library (NPTL), 435 

natural identifiers, 134 

natural-language full-text searches, 306 

NDB API, 619 

NDB Cluster storage engine, 21, 535, 549, 550, 
576 

nesting cursors, 290 

netcat, 717 

network address translation (NAT), 584 

network configuration, 429—431 

network overhead, 202 

network performance, 595 
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network-attached storage (NAS), 422—427 
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next-key locking, 17 

NFS, SAN over, 424 
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nodes, 531, 538 

non-SELECT queries, 721 

nondeterministic statements, 499 

nonrepeatable reads, 8 

nonreplicated data, 501 

nonsharded data, 538 

nontransactional tables, 498 

nonunique server IDs, 500 

nonvolatile random access memory (NVRAM), 
400 

normalization, 133—136 

NOT EXISTS() queries, 219, 232 

NOT NULL, 116, 682 

NOW( function, 316 

NOW_USEC( function, 296, 513 

NPTL (Native POSIX Threads Library), 435 

NULL, 116, 133, 270 

null hypothesis, 47 

NULLIF( function, 254 

NuoDB, 22 

NVRAM (nonvolatile random access memory), 
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object versioning, 615 
object-relational mapping (ORM) tool, 131, 
148, 606 
OCZ, 407 
OFFSET variable, 246 
OLTP (online transaction processing), 22, 38, 
59, 478, 509, 596 
on-controller cache (see RAID) 
on-disk caches, 614 
on-disk temporary tables, 122 
online transaction processing (OLTP), 22, 38, 
59, 478, 509, 596 
open() function, 363 
openark kit, 666 
opened tables, 355 
opening and locking partitions, 271 
OpenNMS, 669 
operating system 
choosing an, 431 
how to select CPUs for MySQL, 388 
optimization, 387 
status of, 438—444 
what limits performance, 387 


oprofile tool, 99-102, 111 
Opsview, 668 
optimistic concurrency control, 12 
optimization, 3 
(see also application-level optimization) 
- (see also query optimization) 
BLOB workload, 375 
DISTINCT queries, 244 
filesort, 377 
full-text indexes, 312 
GROUP BY queries, 244, 752, 768 
JOIN queries, 244 | 
LIMIT and OFFSET, 246 
OPTIMIZE TABLE command, 170, 310, 
501 
optimizer traces, 734 
optimizer_prune_level, 240 
optimizer_search_depth, 240 
optimizer_switch, 241 
prepared statements, 292 
queries, 272 
query cache, 327 
query optimizer, 215-220 
RAID performance, 415—417 
ranking queries, 250 
selects on Sahibinden.com, 767 
server setting optimization, 331 
sharded JOIN queries on Grouply.com, 
769 
for solid-state storage, 410—414 
sorts, 193 
SQL_CALC_FOUND_ROWS variable, 
248 
subqueries, 244 
TEXT workload, 375 
through profiling, 72-75, 91 
UNION variable, 248 
Optimizer 
hints 
DELAYED, 239 
FOR UPDATE, 240 
FORCE INDEX, 240 
HIGH_PRIORITY, 238 
IGNORE INDEX, 240 
LOCK IN SHARE MODE, 240 
LOW_PRIORITY, 238 
SQL_BIG_RESULT, 239 
SQL_BUFFER_RESULT, 239 
SQL_CACHE, 239 


SQL_CALC_FOUND_ROWS, 239 
SQL_NO_CACHE, 239 
SQL_SMALL_RESULT, 239 
STRAIGHT_JOIN, 239 
USE INDEX, 240 

limitations of 
correlated subqueries, 229-233 
equality propogation, 234 
hash joins, 234 
index merge optimizations, 234 
loose index scans, 235 
MINO and MAX(), 237 
parallel execution, 234 
SELECT and UPDATE on the Same 

Table, 237 

UNION limitations, 233 

query, 214—227 
complex queries versus many queries, 
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COUNTO( aggregate function, 241 
join decomposition, 209 
limitations of MySQL, 229-238 
optimizing data access, 202—207 
reasons for slow queries, 201 
restructuring queries, 207—209 
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options, 332 
OQGraph storage engine, 23 
Oracle Database, 408 
Oracle development milestones, 33 
Oracle Enterprise Linux, 432 
Oracle GoldenGate, 516 
ORDER BY queries, 163, 182, 226, 253 
order processing, 26 
ORM (object-relational mapping), 148, 606 
OurDelta, 683 
out-of-sync replicas, 488 
OUTER JOIN queries, 221 
outer joins, 216 
outliers, 74 
oversized packets, 511 
O_DIRECT variable, 362 
O_DSYNC variable, 363 
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packed indexes, 184 
packed tables, 19 
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PACK_KEYS variable, 184 
page splits, 170 
paging, 436 
PAM authentication, 298 
parallel execution, 234 
parallel result sets, 753 
parse tree, 3 
parser, 214 
PARTITION BY variable, 265, 270 
partitioning, 415 
across multiple nodes, 531 
how to use, 268 
keys, 535 
with replication filters, 564 
sharding, 533-547, 565, 755 
tables, 265-276, 329 
types of, 267 
passive caches, 611 
Patricia tries, 158 
PBXT, 22 
PCle cards, 400, 406 
Pen, 556 
per-connection memory needs, 348 
per-connection needs, 348 
percent() function, 676 
percentile response times, 38 
Percona InnoDB Recovery Toolkit, 657 
Percona Server, 598, 679, 711 
BLOB and TEXT types, 122 
buffer pool, 711 
bypassing operating system caches, 344 
corrupted tables, 657 
doublewrite buffer, 411 
enhanced slow query log, 89 
expand_fast_index_creation, 198 
extended slow query log, 323, 330 
fast warmup features, 351, 563, 598 
FNV64() function, 157 
HandlerSocket plugin, 297 
idle transaction timeout parameter, 744 
INFORMATION_SCHEMA.INDEX_STA 
TISTICS table, 187 
innobd_use_sys_stats_table option, 197 
InnoDB online text creation, 144 
innodb_overwrite_relay_log_info option, 
383 
innodb_read_io_threads option, 702 
innodb_recovery_stats option, 359 
innodb_use_sys_stats_table option, 356 
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innodb_write_io_threads option, 702 
larger log files, 411 
lazy page invalidation, 366 
limit data dictionary size, 356, 711 
mutex issues, 384 
mysqldump, 628 
object-level usage statistics, 110 
query-level instrumentation, 73 
read-ahead, 412 
replication, 484, 496, 508, 516 
slow query log, 74, 80, 84, 89, 95 
stripping query comments, 316 
temporary tables, 689, 711 
user Statistics tables, 711 
Percona Toolkit, 666 
Aspersa, 666 
Maatkit, 658, 666 
mk-parallel-dump tool, 638 
mk-parallel-restore tool, 638 
mk-query-digest tool, 72 | 
mk-slave-prefetch tool, 510 
pt-archiver, 208, 479, 504, 545, 553 
pt-collect, 99, 442 
pt-deadlock-logger, 697 
pt-diskstats, 45, 442 
pt-duplicate-key-checker, 187 
pt-fifo-split, 651 
pt-find, 502 
pt-heartbeat, 476, 487, 492, 559 
pt-index-usage, 187 
pt-kill, 744 
pt-log-player, 340 
pt-mext, 347, 687 
pt-mysql-summary, 100, 103, 347, 677 
pt-online-schema-change, 29 
pt-pmp, 99, 101, 390 
pt-query-advisor, 249 
pt-query-digest, 375, 507, 563 
extracting from comments, 79 
profiling, 72-75 
query log,.82+84 
slow query logging, 90, 95, 340 
pt-sift, 100, 442 
pt-slave-delay, 516, 634 
pt-slave-restart, 496 
pt-stalk, 98, 99, 442 
pt-summary, 100, 103, 677 
pt-table-checksum, 488, 495, 519, 634 
pt-table-sync, 489 
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pt-upgrade, 187, 241, 570, 734 
pt-visual-explain, 733 
Percona tools, 52, 64-66, 195 
Percona XtraBackup, 457, 624, 627, 631, 648, 
658 
Percona XtraDB Cluster, 516, 549, 577—580, 
680 
performance optimization, 69-72, 107 
plotting metrics, 49 
profiling, 72—75 
SAN, 424 
views and, 279 
Performance Schema, 90 
Perl scripts, 572 
Perldoc, 662 
perror utility, 355 
persistent connections, 561, 607 
persistent memory, 597 
pessimistic concurrency control, 12 
phantom reads, 8 
PHP profiling tools, 77 
phpMyAdmin tool, 666 
phrase proximity ranking, 759 
phrase searches, 309 
physical reads, 395 
physical size of disk, 399 
pigz tool, 626 | 
“pileups”, 69 
Pingdom, 671 
pinging, 606, 689 
Planet MySQL blog aggregator, 667 
planned promotions, 490 
plugin-specific variables, 692 
plugins, 297 
point-in-time recovery, 625, 652 
poor man’s profiler, 101 
port forwarding, 584 
possible_keys column, 729 
post-mortems, 571 
PostgreSQL, 258 
potential cache size, 323 
power grid, 572 
preferring a join, 244 
prefix indexes, 160-163 
prefix-compressed indexes, 184 
preforking, 608 
pregenerating content, 617 
prepared statements, 291-295, 329 


preprocessor, 214 
Preston, W. Curtis, 621 
primary key, 17, 173-176 
PRIMARY KEY constraint, 185 
priming the cache, 509 
PROCEDURE ANALYSE command, 297 
procedure plugins, 297 
processor speed, 392 
profiling 
and application speed, 76 
applications, 75—80 
diagnosing intermittent problems, 92-110 
interpretation, 74 
MySQL queries, 80-84 
optimization through, 72-75, 91 
single queries, 84—91 
tools, 72, 110-112 
promotions of replicas, 491, 583 
propagation of changes, 584 
proprietary plugins, 33 
proxies, 556, 584, 609 
pruning, 270 
pt-archiver tool, 208, 479, 504, 545, 553 
pt-collect tool, 99, 442 
pt-deadlock-logger tool, 697 
pt-diskstats tool, 45, 442 
pt-duplicate-key-checker tool, 187 
pt-fifo-split tool, 651 
pt-find tool, 502 
pt-heartbeat tool, 476, 487, 492, 559 
pt-index-usage tool, 187 
pt-kill tool, 744 
pt-log-player tool, 340 
pt-mext tool, 347, 687 
pt-mysql-summary tool, 100, 103, 347, 677 
pt-online-schema-change tool, 29 
pt-pmp tool, 99, 101, 390 
pt-query-advisor tool, 249 
pt-query-digest (see Percona Toolkit) 
pt-sift tool, 100, 442 
pt-slave-delay tool, 516, 634 
pt-slave-restart tool, 496 
pt-stalk tool, 98, 99, 442 
pt-summary tool, 100, 103, 677 
pt-table-checksum tool, 488, 495, 519, 634 
pt-table-sync tool, 489 
pt-tcp-model tool, 611 
pt-upgrade tool, 187, 241, 570, 734 
pt-visual-explain tool, 733 
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PURGE MASTER LOGS command, 369, 464, 
486 

purging old binary logs, 636 

pushdown joins, 550, 577 


Q 
Q mode, 673 
Q4M storage engine, 23 
Qcache_lowmem_prunes variable, 325 
query cache, 214, 315, 330, 690 
alternatives to, 328 ` 
configuring and maintaining, 323-325 
InnoDB and the, 326 
memory use, 318 
optimizations, 327 
when to use, 320—323 
query execution 
MySQL client/server protocol, 210-213 
optimization process, 214 
query cache, 214, 315-328 
query execution engine, 228 
query logging, 95 
query optimization, 214—227 
complex queries versus many queries, 207 
COUNT\() aggregate function, 241 
join decomposition, 209 
limitations of MySQL, 229-238 
optimizing data access, 202-207 
reasons for slow queries, 201 
restructuring queries, 207—209 
query states, 213 
query-based splits, 557 
querying across shards, 537 
query_cache_limit variable, 324 
query_cache_min_res_unit value variable, 324 
query_cache_size variable, 324, 336 
query_cache_type variable, 323 
query_cache_wlock_invalidate variable, 324 
queue scheduler, 434 
queue tables, 256 
queue time, 204 
quicksort, 226 
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R-Tree indexes, 157 

Rackspace Cloud, 589 

RAID 
balancing hardware and software, 418 
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configuration and caching, 419—422 
failure, recovery, and monitoring, 417 
moving files from flash to, 411 
not for backup, 624 
performance optimization, 415—417 
splits, 647 
with SSDs, 405 
RANDO) function, 160, 724 
random read-ahead, 412 
random versus sequential I/O, 394 
RANGE COLUMNS type, 268 
range conditions, 192 
raw file 
backup, 627 
restoration, 648 
RDBMS technology, 400 
RDS (Relational Database Service), 589, 600 
read buffer size, 343 
READ COMMITTED isolation level, 8, 13 
read locks, 4, 189 
read threads, 703 
READ UNCOMMITTED isolation level, 8, 13 
read-ahead, 412 
read-around writes, 353 
read-mostly tables, 26 
read-only variable, 26, 382, 459, 479 
read-write splitting, 557 
read_buffer_size variable, 336 
Read_Master_Log_Pos, 491 
read_rnd_buffer_size variable, 336 
real number data types, 118 
rebalancing shards, 544 
records_in_range() function, 195 
recovery 
from a backup, 647-658 
defined, 622 
defining requirements, 623 
more advanced techniques, 653 
recovery point objective (RPO), 623, 625 
recovery time objective (RTO), 623, 625 
Red Hat, 432, 683 
Redis, 620 
redundancy, replication-based, 580 
Redundant Array of Inexpensive Disks (see 
RAID) 
redundant indexes, 185—187 
ref column, 730 


Relational Database Index Design and the 
Optimizers (Lahdenmaki & Leach), 
158, 204 
Relational Database Service (RDS), Amazon, 
589, 600 
relay log, 450, 496 
relay-log.info file, 464 
relay_log variable, 453, 459 
relay_log_purge variable, 459 
relay_log_space_limit variable, 459, 511 
RELEASE_LOCK() function, 256 
reordering joins, 216 
REORGANIZE PARTITION command, 271 
REPAIR TABLE command, 144, 371 
repairing MyISAM tables, 18 
REPEATABLE READ isolation level, 8, 13, 
632 
replica hardware, 414 
replica shutdown, unexpected, 496 
replicate_ignore_db variable, 478 
replication, 447, 634 
administration and maintenance, 485 
advanced features in MySQL, 514 
backing up configuration, 630 
and capacity planning, 482—485 
changing masters, 489-494 
checking consistency of, 487 
checking for up-to-dateness, 565 
configuring master and replica, 452 
creating accounts for, 451 
custom solutions, 477—482 
filtering, 466, 564 
how it works, 449 
initializing replica from another server, 456 
limitations, 512 
master and multiple replicas, 468 
master, distribution master, and replicas, 
474 
master-master in active-active mode, 469 
master-master in active-passive mode, 471 
master-master with replicas, 473 
measuring lag, 486 
monitoring, 485 
other technologies, 516 
problems and solutions, 495—512 
problems solved by, 448 
promotions of replicas, 491, 583 
recommended configuration, 458 
replica consistency with master, 487 


replication files, 463 
resyncing replica from master, 488 
ring, 473 
row-based, 447, 460—463 
sending events to other replicas, 465 
setting up, 451 
speed of, 512-514 
splitting reads and writes in, 557 
starting the replica, 453-456 
statement-based, 447, 460—463 
status, 708 
switching master-master configuration 
roles, 494 
topologies, 468, 490 
tree or pyramid, 476 
REPLICATION CLIENT privilege, 452 
REPLICATION SLAVE privilege, 452 
replication-based redundancy, 580 
RESET QUERY CACHE command, 325 
RESET SLAVE command, 490 
resource consumption, 70 
response time, 38, 69, 204 
restoring 
defined, 622 
logical backups, 649-651 
RethinkDB, 22 
ring replication, 473 
ROLLBACK command, 499 
round-robin database (RRD) files, 669 
row fragmentation, 198 
row locks, 5, 12 
ROW OPERATIONS, 705 
row-based logging, 636 
row-based replication, 447, 460-463 
rows column, 731 
rows examined, number of, 205 
rows returned, number of, 205 
ROW_COUNT command, 287 
RPO (recovery point objective), 623, 625 
RRDTool, 669 
rsync, 195, 456, 717, 718 
RTO (recovery time objective), 623, 625 
running totals and averages, 255 
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safety and sanity settings, 380-383 
Sahibinden.com, 767 

SandForce, 407 

SANs (storage area networks), 422—427 
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sar, 438 SEMAPHORES, 693 


sargs, 166 | sequential versus random I/O, 394 
SATA SSDs, 405 . sequential writes, 576 
scalability, 521 SERIALIZABLE isolation level, 8, 13 
by clustering, 548 serialized writes, 509 
by consolidation, 547 server, 685 
frequency, 392 adding/removing, 563 
and load balancing, 555 configuration, backing up, 630 
mathematical definition, 523 consolidation, 425 
multiple CPUs/cores, 391 INFORMATION_SCHEMA database, 711 
planning for, 527 MySQL configuration, 332 
preparing for, 528 PERFORMANCE_SCHEMA database, 
“scale-out” architecture, 447 712 
scaling back, 552 profiling and speed of, 76, 80 
scaling out, 531-547 server-wide problems, 93—96 
scaling pattern, 391 setting optimization, 331 
scaling up, 529 SHOW ENGINE INNODB MUTEX 
scaling writes, 483 command, 707-709 
Sphinx, 754 SHOW ENGINE INNODB STATUS 
universal law of, 525—527 command, 692-706 
scalability measurements, 39 SHOW PROCESSLIST command, 706 
ScaleArc, 547, 549 SHOW STATUS command, 686—692 
ScaleBase, 547, 549, 551, 594 status variables, 346 
ScaleDB, 407, 574 ` workload profiling, 80 
scanning data, 269 server-side prepared statements, 295 
scheduled tasks, 504 service time, 204 
schemas, 13 session scope, 333 
changes, 29 session-based splits, 558 
design, 131 SET CHARACTER SET command, 300 
normalized and denormalized, 135 SET GLOBAL command, 494 
Schooner Active Cluster, 549 SET GLOBAL SQL_SLAVE_SKIP_COUNTER 
scope, 333 command, 654 
scp, 716 SET NAMES command, 300 
search engine, selecting the right, 24-28 SET NAMES utf8 command, 300, 606 
search space, 226 SET SQL_LOG_BIN command, 503 
searchd, Sphinx, 746, 754, 756-766 SET TIMESTAMP command, 635 
secondary indexes, 17, 656 | SET TRANSACTION ISOLATION LEVEL 
security, connection management, 2 command, 11 
sed, 638 SET type, 128, 130 
segmented key cache, 19 SetLimits() function, 748, 764 
segregating hot data, 269 SetMaxQueryTime() function, 764 
SELECT command, 237, 267, 721 *  SeveralNines, 550, 577 


SELECT FOR UPDATE command, 256, 287 SHA1() function, 53, 130, 156 
SELECT INTO OUTFILE command, 301,504, Shard-Query system, 547 


508, 600, 638, 651, 657 sharding, 533-547, 565, 755 
SELECT types, 690 shared locks, 4 
selective replication, 477 shared storage, 573-576 
selectivity, index, 160 SHOW BINLOG EVENTS command, 486, 
select_type column, 724 708 
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SHOW commands, 255 

SHOW CREATE TABLE command, 117, 163 

SHOW CREATE VIEW command, 280 

SHOW ENGINE INNODB MUTEX 
command, 695, 707-709 

SHOW ENGINE INNODB STATUS 
command, 97, 359, 366, 384, 633, 
692-706, 740 

SHOW FULL PROCESSLIST command, 81, 
700 

SHOW GLOBAL STATUS command, 88, 93, 
346, 686 

SHOW INDEX command, 197 

SHOW INDEX FROM command, 196 

SHOW INNODB STATUS command (see _ 
SHOW ENGINE INNODB STATUS 
command) 

SHOW MASTER STATUS command, 452, 
457, 486, 490, 558, 630, 643 - 

SHOW PROCESSLIST command, 94—96, 256, 
289, 606, 706 

SHOW PROFILE command, 85-89 

SHOW RELAYLOG EVENTS command, 708 

SHOW SLAVE STATUS command, 453, 457, 
486, 491, 558, 630, 708 

SHOW STATUS command, 88, 352 

SHOW TABLE STATUS command, 14, 197, 
365,672 ` 

SHOW VARIABLES command, 352, 685 

SHOW WARNINGS command, 222, 277 

signed types, 117 

single-component benchmarking, 37, 51 

single-level cell (SLC), 402, 407 

single-shard queries, 535 

single-transaction variable, 457, 632 

skip_innodb variable, 476 

skip_name_resolve variable, 381, 429, 570 

skip_slave_start variable, 382, 459 

slavereadahead tool, 510 

slave_compressed_protocol variable, 475, 511 

slave_master_info variable, 383 

slave_net_timeout variable, 382 

Slave_open_temp_tables variable, 503 

SLC (single-level cell), 402, 407 

Sleep state, 607 

SLEEP() function, 256, 682, 737 

sleeping before entering queue, 373 

slots, 694 

slow queries, 71, 74, 80, 89, 109, 321 


SMALLBLOB type, 122 

SMALLINT type, 117 

SMALLTEXT type, 122 

Smokeping tool, 430 

snapshots, 457, 624, 640-648 

Solaris SPARC hardware, 431 

Solaris ZFS filesystem, 431 

solid-state drives (SSD), 147, 268, 361, 404 

solid-state storage, 400—414 

sort buffer size, 343 

sort optimizations, 226, 691 

sorting, 193 

sort_buffer_size variable, 336 

Souders, Steve, 608 

SourceForge, 52 

SPARC hardware, 431 

spatial indexes, 157 

Sphinx, 313, 619, 745, 770 
advanced performance control, 763 
applying WHERE clauses, 750 
architectural overview, 756-758 
efficient and scalable full-text searching, 

749 
filtering, 761 | 
finding top results in order, 751 
geospatial search functions, 262 
installation overview, 757 
optimizing GROUP BY queries, 752, 768 
optimizing selects on Sahibinden.com, 767 
optimizing sharded JOIN queries on 
Grouply.com, 769 

phrase proximity ranking, 759 
searching, 746-748 
special features, 759-764 
SphinxSE, 756, 759, 761, 767 
support for attributes, 760 
typical partition use, 758 

Spider storage engine, 24 

spin-wait, 695 

spindle rotation speed, 399 

splintering, 533-547 

split-brain syndrome, 575, 578 

splitting reads and write in replication, 557 

Splunk, 671 

spoon-feeding, 608 

SQL and Relational Theory (Date), 255 

SQL Antipatterns (Karwin), 256 

SQL dumps, 637 

SQL interface prepared statements, 295 
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SQL slave thread, 450 
SQL statements, 638 
SQL utilities, 667 
sql-bench, 52 
SQLyog tool, 665 
SQL_BIG_RESULT hint, 239, 245 
SQL_BUFFER_RESULT hint, 239 
SQL_CACHE hint, 239 
SQL_CACHE variable, 321, 328 
SQL_CALC_FOUND_ROWS hint, 239 
SQL_CALC_FOUND_ROWS variable, 248 
sql_mode, 382 
SQL_MODE configuration variable, 245 
SQL_NO_CACHE hint, 239 
SQL_NO_CACHE variable, 328 
SQL_SMALL_RESULT hint, 239, 245 
Squid, 608 
SSD (solid-state drives), 147, 268, 361, 404 
SSH, 716 
staggering numbers, 505 
stale-data splits, 557 
“stalls”, 69 
Starkey, Jim, 22 
START SLAVE command, 654 
START SLAVE UNTIL command, 654 
start-position variable, 498 
statement handles, 291 
statement-based replication, 447, 460-463 
static optimizations, 216 
static query analysis, 249 
STEC, 407 
STONITH, 584 
STOP SLAVE command, 487, 490, 498 
stopwords, 306, 312 
storage area networks (SANs), 422—427 
storage capacity, 399 
storage consolidation, 425 
storage engine API, 2 
storage engines, 13, 23-28 

Archive, 19 

Blackhole, 20 

column-oriented, 22 

community, 23 

and consistency, 633 

CSV, 20 

Falcon, 22 

Federated, 20 

InnoDB, 15 

Memory, 20 
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Merge, 21. 

mixing, 11, 500 

MyISAM, 18 

NDB Cluster, 21 

OLTP, 22 

ScaleDB, 574 

XtraDB, 680 
stored code, 282—284, 289 
Stored Procedure Library, 667 
stored procedures and functions, 284 
stored routines, 282, 329 
strace tool, 99, 111 
STRAIGHT_JOIN hint, 224, 239 
string data types, 119-125, 130 
string locks, 736 
stripe chunk size, 420 
subqueries, 218, 244 
SUBSTRING() function, 122, 304, 375 
sudo rules, 630 
SUM() function, 139 
summary tables, 136 
Super Smack, 52 
surrogate keys, 173 
Swanhart, Justin, 138, 280, 547 
swapping, 436, 444 
switchover, 582 
synchronization, two-way, 287 
synchronous MySQL replication, 576-580 
sync_relay_log variable, 383 
sync_relay_log_info variable, 383 
sysbench, 39, 53, 56—61, 419, 426, 598 
SYSDATE() function, 382 
sysdate_is_now variable, 382 
system of record approach, 517 
system performance, benchmarking, 44 
system under test (SUT), 44 
system variables, 685 
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table definition cache, 356 
tables 
building a queue, 256 
cache memory, 354 
column, 724-727 
conversions, 28 
derived, 238, 277, 725 
finding and repairing corruption, 194 
INFORMATION_SCHEMA in Percona 
Server, 711 


locks, 5, 692, 735-738 
maintenance, 194-198 
merge, 273—276 
partitioned, 265-276, 329 
reducing to an MDS hash value, 255 
SELECT and UPDATE on, 237 
SHOW TABLE STATUS output, 14 
splitting, 554 
Statistics, 220 
tablespaces, 16, 364 
views, 276—280 
table_cache_size variable, 335, 379 
tagged cache, 615 
TCP, 556, 583 
tcpdump tool, 81, 95, 99 
tcp_max_syn_backlog variable, 430 
temporal computations, 125 


temporary files and tables, 21, 502, 689, 711 


TEMPTABLE algorithm, 277 
Texas Memory Systems, 407 
TEXT type, 21, 121, 122 
TEXT workload, optimizing for, 375 
Theory of Constraints, 526 
third-party storage engines, 21 
thread and connection statistics, 688 
thread cache memory, 353 
threaded discussion forums, 27 
threading, 213, 435 
Threads_connected variable, 354, 596 
Threads_created variable, 354 
Threads_running variable, 596 
thread_cache_size variable, 335, 354, 379 
throttling variables, 627 
throughput, 38, 70, 398, 576 
tickets, 373 
time to live (TTL), 614 
time-based data partitioning, 554 
TIMESTAMP type, 117, 126, 631 
TIMESTAMPDIFF() function, 513 
TINYBLOB type, 122 
TINYINT type, 117 
TINYTEXT type, 122 
Tkachenko, Vadim, 405 
tmp_table_size setting, 378 
TokuDB, 22, 158 
TO_DAYS() function, 268 
TPC Benchmarks 

dbt2, 61 

TPC-C, 52 


TPC-H, 41 

TPCC-MySQL tool, 52, 64-66 
transactional tables, 499 
transactions, 24 

ACID test, 6 

deadlocks, 9 

InnoDB, 366, 699 

isolation levels, 7 

logging, 10 

in MySQL, 10 

and storage engines, 24 
transfer speed, 398 
transferring large files, 715-718 
transparency, 556, 578, 611 
tree or pyramid replication, 476 
tree-formatted output, 733 
trial-and-error troubleshooting, 92 
triggers, 97, 282, 286 
TRIM command, 404 
Trudeau, Yves, 262 
tsql2mysql tool, 282 
TTL (time to live), 614 
tunefs, 433 
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“tuning”, 340 
turbo boost technology, 392 
type column, 727 
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Ubuntu, 683 

UDF Library, 667 

UDFs, 262, 295 

unarchiving, 553 

uncommitted data, 8 

uncompressed files, 715 

undefined server IDs, 501 
underutilization, 485 

UNHEX() function, 130 

UNION ALL query, 248 

UNION limitations, 233 

UNION query, 220, 248, 254, 724—727 
UNION syntax, 274 

UNIQUE constraint, 185 

unit of sharding, 535 

Universal Scalability Law (USL), 525-527 
Unix, 332, 432, 504, 582, 630 
UNIX_TIMESTAMP() function, 126 


UNLOCK TABLES command, 12, 142, 643 


UNSIGNED attribute, 117 
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“unsinkable” systems, 573 
unused indexes, 187 
unwrapping, 255 
updatable views, 278 
UPDATE command, 237, 267, 278 
UPDATE RETURNING command, 252 
upgrades 
replication before, 449 
validating MySQL, 241 
USE INDEX hint, 240 
user logs, 740 
user optimization issues, 39, 166 
user Statistics tables, 711 
user-defined functions (UDFs), 262, 295 
user-defined variables, 249-255 
USER_STATISTICS tables, 110 
“Using filesort” value, 733 
“Using index” value, 733 
USING query, 218 
“Using temporary” value, 733 
“Using where” value, 733 
USL (Universal Scalability Law), 525-527 
UTF-8, 298, 303 ; 
utilities, SQL, 667 
UUID(O function, 130, 507, 546 
UUID_SHORT)() function, 546 


V 
Valgrind, 78 
validating MySQL upgrades, 241 
VARCHAR type, 119, 124, 131, 513 
variables, 332 
assignments in statements, 255 
setting dynamically, 335-337 
user-defined, 249-255 
version-based splits, 558 
versions 
and full-text searching, 310 
history of MySQL, 29-33 
improvements in MySQL 5.6, 734 
old row, 366 
replication before upgrading, 449 
version-specific comments, 289 
vgdisplay command, 642 
views, 276—280, 329 
Violin Memory, 407 
Virident, 403, 409 
virtual IP addresses, 560, 583 
virtualization, 548 
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vmstat tool, 436, 438, 442, 591, 646 
volatile memory, 597 

VoltDB, 549 

volume groups, 641 ; 
VPForMySQL storage engine, 24 


W 

Wackamole, 556 

waiters flag, 694 

warmup, 351, 573 

wear leveling, 401 

What the Dog Saw (Gladwell), 571 
WHERE clauses, 255, 750 
whole number data types, 117 
Widenius, Monty, 679, 681 
Windows, 504 

WITH ROLLUP variable, 246 


Workbench Utilities, MySQL, 665, 666 


working concurrency, 39 
working sets of data, 395, 597 


workload-based configuration, 375-377 


worst-case selectivity, 162 

write amplification, 401 

write cache and power failure, 405 
write locks, 4, 189 

write synchronization, 565 

write threads, 703 

write-ahead logging, 10, 395 
write-invalidate policy, 614 
write-set replication, 577 
write-update, 614 

writes, scaling, 483 
WriteThrough vs. WriteBack, 418 
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X-25E drives, 404 

X.509 certificates, 2 

x86 architecture, 390, 431 
XA transactions, 314, 330 
xdebug, 78 

Xeround, 549, 602 
xhprof tool, 77 


XtraBackup, Percona, 457, 624, 627, 631, 648, 
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Zabbix, 668 
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ZFS filer, 631, 640 

ZFS filesystem, 408, 431 

zlib, 19, 511 
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Baron Schwartz 是 一 位 软件 工程 师 ， 居 住 在 弗吉尼亚 州 的 Charlottesville， 网 络 常用 名 是 
Xaprb， 这 是 按照 QWERTY 键盘 的 顺序 在 Dvorak 键盘 上 打出 来 的 名 字 。 在 不 忙于 解决 
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封面 说 明 


本 书 封 面 上 的 动物 是 省 入 (sparrow hawk), XA (Accipiternisus) 。 它 是 猎 雇 家 族 的 
一 名 成 员 ， 生 活 在 欧 亚 大 陆 和 北非 的 树林 里 。 省 认 有 着 长 长 的 尾巴 和 短小 的 翅膀 : aS 
是 蓝 灰色 的 ， 有 着 浅 棕色 的 胸部 , 雌 鸟 大 多 数 是 棕 灰 色 的 ， 胸 部 几乎 是 纯 白 色 。 雄 鸟 (11 
英寸 ) 的 体型 通常 比 峻 岛 (15 英寸 ) 要 小 一 些 。 


洗 记 生活 在 针 叶 林 中 ， 以 小 型 哺乳 动物 、 昆 虫 和 鸟 类 为 食 。 它 们 的 梨 一 般 筑 在 树 上 ， 有 
时 甚至 在 悬崖 峭壁 上 。 每 年 夏 初 ， 在 位 于 最 高 的 树 的 主干 上 的 梨 里 ， 雌 鸟 会 产 下 四 到 六 
颗 白 中 略 带 一 些 红色 和 棕色 的 蛋 ; 雄 鸟 则 负责 给 峻 岛 和 幼 鸟 们 喂食 。 


和 所 有 的 认 一 样 ， 汰 认 也 具有 在 飞行 时 高 速 俯冲 的 能 力 。 无 论 是 展翅 高 飞 还 是 盘旋 滑 羯 
时 ， 稚 记 都 会 有 带 着 明显 特征 的 拍 翅 一 拍 翅 一 滑行 的 动作 ; 它 的 大 尾巴 使 其 能 够 轻松 地 
盘旋 和 转身 ， 从 容 地 出 人 树林 之 间 。 


封面 图 片 是 一 幅 19 世纪 的 雕版 画 ， 出 自 Dover Pictorial Archive, 
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译 者 简介 


宁海 元 有 超过 十 年 的 数据 库 管 理 经 验 ， 从 最 初 的 SQL Server 2000 到 Oracle 再 到 
MySQL， 擅 长 数据 库 高 可 用 架构 、 性 能 优化 和 故障 诊断 。2007 年 加 入 淘宝 ， 带 领 淘宝 
DBA 团队 完成 了 数据 库 的 垂直 拆 分 、 水 平 拆 分 ， 迁 移 到 MySQL 体系 等 主要 工作 ， 为 淘 
宝 业务 的 快速 增长 提供 支撑 。 目 前 专注 于 无 线 数据 领域 。 网 络 常用 名 NinGoo, 个 人 博客 : 


http://www.ningoo.net 


周 振兴 毕业 于 北京 师范 大 学 数学 系 ，2009 年 加 入 淘宝 数据 库 团 队 ， 负 责 MySQL 运 维 
管理 工作 ， 有 丰富 的 MySQL 性 能 优化 、Troubleshooting 经 验 ， 对 MySQL 主要 模块 的 
实现 和 原理 有 深入 的 研究 ， 经 历 了 淘宝 MySQL 实例 从 30 到 3000 的 发 展 ， 对 系统 架构 、 
高 可 用 环境 规划 都 有 深入 理解 。 个 人 博客 : http://orczhou.com 


彭 立 勋 2010 年 大 学 毕业 后 加 入 阿里 巴巴 运 维 部 。 作 为 一 名 MySQL DBA， 在 运 维 
MySQL 的 过 程 中 对 MySQL 和 InnoDB 的 一 些 功能 和 人 缺陷 进行 了 补充 ， 编写 了 多 主 复制 
和 数据 内 回 等 补丁 。 目 前 在 阿里 集团 核心 系统 研发 部 数据 库 组 ， 专 注 于 MySQL 数据 库 
相关 的 开发 工作 。 后 来 一 些 补丁 被 MySQL ZR Mony 看 中 ， 多 主 复制 、 线 程 内 存 监控 
等 补丁 被 合并 到 了 MariaDB 10.0 版 本 ,本 人 也 因此 成 为 MariaDB 提交 组 (Maria-captains) 
成 员 。 


DE 毕业 于 武汉 大 学 ， 研 究 生 阶段 从 事 数 据 库 相关 研究 。 毕 业 后 就 职 于 阿里 巴巴 集团 
数据 库 技术 团队 至 今 ， 主 要 负责 阿里 内 部 MySQL 代码 分 支 维护 ， 包 括 MySQL Bug Fix 
及 新 特性 开发 。 对 MySQL 内 核 有 一 定 的 研究 。 


刘辉 2008 年 毕业 于 西安 电子 科技 大 学 计算 机 系 ， 硕 士 学 位 。2011 年 加 入 阿里 巴巴 集团 
数据 库 技术 团队 ， 花 名 希 羽 ，MySQL 内 核 开 发 工程 师 。 
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